运维思维导图 (核心框架)
中心主题:运维

- 核心目标:保障业务连续性、稳定、高效、安全
一级分支:基础架构
- 服务器硬件
- 物理机
- 虚拟化
VMware, KVM, Hyper-V
- 云计算
- IaaS: AWS EC2, 阿里云ECS, 腾讯云CVM
- PaaS: AWS RDS, 阿里云RDS, Kubernetes (EKS, ACK)
- SaaS: 各种在线服务
- 网络架构
- 网络设备
路由器, 交换机, 防火墙, 负载均衡器
- 网络协议
TCP/IP, HTTP/HTTPS, DNS, DHCP
- 网络模型
- VPC (虚拟私有云), 子网, 安全组
- 内网, 外网, DMZ区
- 网络监控
带宽, 延迟, 丢包率
- 网络设备
- 存储系统
- 本地存储
- 分布式存储
Ceph, GlusterFS
- 集中式存储
SAN, NAS
- 云存储
- 对象存储: S3, OSS
- 文件存储: EFS, NFS
- 备份与恢复
- 操作系统
- Linux
- 发行版: CentOS, Ubuntu, Red Hat, Debian
- 内核参数调优
- 文件系统
- Windows Server
- 容器OS
CoreOS, RancherOS
- Linux
一级分支:核心运维领域
- 应用部署与发布
- 部署方式
- 蓝绿部署
- 灰度发布/金丝雀发布
- 滚动更新
- 部署工具
- Jenkins, GitLab CI/CD, GitHub Actions
- Ansible, SaltStack, Puppet, Chef
- 容器化与编排
- Docker
- Kubernetes (K8s): Pod, Deployment, Service, Ingress
- 容器镜像仓库: Harbor, ECR
- 部署方式
- 监控与告警
- 监控对象
- 基础设施监控 (CPU, 内存, 磁盘, 网络)
- 应用性能监控 (APM): 响应时间, QPS, 错误率
- 日志监控
- 业务指标监控
- 监控系统
- Zabbix, Nagios, Prometheus + Grafana
- ELK/EFK Stack (Elasticsearch, Logstash/Fluentd, Kibana)
- 告警系统
- Alertmanager, PagerDuty, 钉钉/企业微信机器人
- 告警收敛, 告警分级, 告警升级
- 监控对象
- 日志管理
- 日志收集
Filebeat, Fluentd, Logstash
- 日志存储
Elasticsearch, ClickHouse
- 日志分析
Kibana, Splunk
- 日志目的
问题排查, 安全审计, 用户行为分析
- 日志收集
- 备份与恢复
- 备份策略
- 3-2-1原则 (3份副本, 2种介质, 1份异地)
- 全量备份, 增量备份, 差异备份
数据库, 配置文件, 应用代码, 系统镜像
- 恢复演练
定期测试,确保可用性
- 备份策略
- 安全运维
- 系统安全
系统加固, 漏洞扫描与修复, 补丁管理
- 网络安全
防火墙策略, WAF (Web应用防火墙), DDoS防护
- 应用安全
代码审计, SAST/DAST, 依赖库漏洞扫描
- 数据安全
数据加密 (传输/存储), 访问控制, 数据脱敏
- 身份与访问管理
IAM (Identity and Access Management), 多因素认证 (MFA)
- 应急响应
安全事件处理流程
- 系统安全
一级分支:运维理念与模式
- DevOps
- 核心理念
文化变革, 自动化, 协作
- 关键实践
- CI/CD (持续集成/持续部署)
- 基础设施即代码
- 微服务架构
- 监控左移
- 核心理念
- SRE (站点可靠性工程)
- 核心理念
- 用软件工程的思维和方法来解决运维问题
- 将运维工作量化为SLO (服务等级目标), SLI (服务等级指标), SLA (服务等级协议)
- 关键实践
- 错误预算
- 事件响应与复盘
- 负载测试
- 核心理念
- GitOps
- 核心理念
Git作为声明式基础设施和应用配置的唯一真实来源
- 关键实践
- 声明式配置
- 自动化同步
- 版本控制和变更审计
- 核心理念
- 云原生
- 核心技术
容器, 微服务, 服务网格 (Istio), 声明式API
- 关键理念
建构而非迁移, 面向故障设计, 自动化运维
- 核心技术
一级分支:运维管理
- 容量规划
- 资源评估
- 负载预测
- 扩容缩容策略 (弹性伸缩)
- 成本管理
- 资源利用率分析
- 云成本优化
- 预算控制
- 事件管理
- 事件分级 (P0-P4)
- 事件处理流程 (发现 -> 响应 -> 定位 -> 解决 -> 复盘)
- 事件复盘
- 问题管理
- 根因分析
- 知识库建设
- 防止再次发生
- 变更管理
- 变更流程 (申请 -> 审批 -> 实施 -> 验证)
- 变更窗口
- 紧急变更处理
- 文档管理
- 架构图
- 运维手册
- 应急预案
- 配置管理数据库
一级分支:运维工具链
- 配置管理
Ansible, SaltStack, Puppet, Chef
- 容器化
Docker, Podman, containerd
- 容器编排
Kubernetes (K8s), Docker Swarm
- 监控工具
Prometheus, Zabbix, Nagios, Datadog
- 日志工具
ELK/EFK Stack, Splunk, Graylog
- CI/CD 工具
Jenkins, GitLab CI, GitHub Actions, Argo CD
- 基础设施即代码
Terraform, CloudFormation, Pulumi
- 可观测性平台
Grafana, Jaeger, Zipkin, SkyWalking
一级分支:软技能与个人发展
- 沟通协作
- 清晰表达技术问题
- 与开发、产品、测试高效协作
- 跨团队项目管理
- 问题排查
- 逻辑思维
- 自上而下/自下而上的分析方法
- 追根溯源
- 自动化思维
- 识别重复性、手动性工作
- 设计和实现自动化脚本/工具
- 持续学习
- 关注新技术 (云原生, AIOps)
- 考取专业认证 (CKA, AWS, RHCE)
- 参与社区, 技术分享
- 压力管理与应急响应
- 保持冷静,快速决策
- 高效处理线上故障
如何使用这份思维导图
- 学习路径:从“基础架构”和“核心运维领域”开始,构建坚实的知识基础。
- 体系化:通过“运维理念与模式”和“运维管理”,理解运维工作的“道”与“术”,形成完整的知识体系。
- 实践工具:对照“运维工具链”,选择主流工具进行实践,将理论落地。
- 自我提升:关注“软技能与个人发展”,成长为一名优秀的复合型运维人才。
希望这份思维导图能帮助您更好地理解和学习运维!
