课程简介
本课程为期三天,围绕分布式系统智能化运维展开,旨在帮助学员掌握分布式系统的基础理论、架构设计、智能化运维方法及故障处理能力。课程内容涵盖分布式系统的核心概念、常见算法、架构设计及关键组件剖析,同时深入讲解智能化运维的核心理念和实践方法,包括自动化运维、AIOps、可观测系统设计等。学员将学习如何构建高效的故障响应机制、实现系统快速排障与恢复,并了解分布式系统运维的最新趋势,如SRE平台建设和AI Ops落地实践。通过理论与实践相结合的教学方式,课程将帮助学员全面提升分布式系统的运维能力,为企业数字化转型提供技术支撑。
目标收益
掌握分布式系统的基础理论与架构设计,了解数据一致性算法、事务实现算法及系统分类。
深入理解分布式系统智能化运维的核心理念,包括自动化运维、AIOps及可观测系统设计。
提升故障处理能力,学习快速排障、恢复及容灾方案,保障系统的高可用性。
掌握分布式系统的监控与观测能力,构建指标监控、日志分析及调用链路系统。
了解分布式系统运维的最新趋势,包括SRE平台建设、AI Ops实践及运维知识图谱构建。
培训对象
课程大纲
|
分布式系统概述 |
1. 分布式系统定义、特点及核心价值 2. 分布式系统与集中式系统的差异对比 |
|
分布式系统中的常见算法 |
3. 分布式中的数据一致性算法 4. 分布式系统的事务实现算法 |
|
分布式系统的分类 |
5. 分布式数据库系统简介 6. 分布式微服务系统简介 |
|
混合云和容灾 |
7. 多机房分布式和混合云系统 8. 同城容灾和异地容灾系统 |
| 分布式系统的基本架构 |
1. 分布式资源的池化管理平台 2. 分布式存储系统 3. 分布式计算任务的调度 |
|
分布式系统中的核心组件 |
4. 分布式系统的服务注册和服务发现 5. 分布式系统的流量控制和调度 6. 分布式系统的鉴权和访问控制 |
|
分布式系统的关键功能设计 |
7. 分布式系统的网关设计 8. 分布式系统的可观测系统设计 |
|
自动化运维平理念的演进 |
1. DevOps和自动化运维脚本系统 2. GitOps和声明式配置管理系统 3. AIOps的智能化运维系统设计 |
|
自动化运维平台功能设计 |
4. CMDB和应用蓝图 5. 应用自动化发布流水线 6. 资源管理和服务拓扑图 7. 运维操作和配置管理 8. 日志、观测,监控、告警等功能 |
|
可观测系统架构和设计思路 |
1. 数据采集和聚合系统 2. 数据建模和汇总 3. 监控可视化和告警 |
|
可观测系统的主要功能 |
4. 指标监控系统 5. 日志和业务分析平台 6. 调用链路系统 |
|
可观测系统的业务指标 |
7. 大数据平台基本架构 8. 流式计算和业务指标分析 |
| 故障响应机制建设 | 1. 故障分级和处理流程 |
|
基础设施故障 |
2. 硬件故障和服务迁移 3. 存储故障和数据恢复 |
|
核心组件故障 |
4. 一致性错误和主备切换 5. 资源耗尽和限流降级 |
|
业务应用故障 |
6. 应用监控和变更管理 7. 容量规划和自动扩容 8. 混合云和跨机房容灾 |
|
SRE平台建设 |
1. 应用监控和自动化回滚 2. 日志的智能筛选和降噪 3. 轻微故障自愈 4. 常态化故障演练 |
|
AI Ops的落地实践 |
5. 容量预测和故障预测 6. 链路异常感知 7. 智能化故障根因分析 8. 大模型结合CMDB构建运维知识图谱 |
|
分布式系统概述 1. 分布式系统定义、特点及核心价值 2. 分布式系统与集中式系统的差异对比 |
|
分布式系统中的常见算法 3. 分布式中的数据一致性算法 4. 分布式系统的事务实现算法 |
|
分布式系统的分类 5. 分布式数据库系统简介 6. 分布式微服务系统简介 |
|
混合云和容灾 7. 多机房分布式和混合云系统 8. 同城容灾和异地容灾系统 |
|
分布式系统的基本架构 1. 分布式资源的池化管理平台 2. 分布式存储系统 3. 分布式计算任务的调度 |
|
分布式系统中的核心组件 4. 分布式系统的服务注册和服务发现 5. 分布式系统的流量控制和调度 6. 分布式系统的鉴权和访问控制 |
|
分布式系统的关键功能设计 7. 分布式系统的网关设计 8. 分布式系统的可观测系统设计 |
|
自动化运维平理念的演进 1. DevOps和自动化运维脚本系统 2. GitOps和声明式配置管理系统 3. AIOps的智能化运维系统设计 |
|
自动化运维平台功能设计 4. CMDB和应用蓝图 5. 应用自动化发布流水线 6. 资源管理和服务拓扑图 7. 运维操作和配置管理 8. 日志、观测,监控、告警等功能 |
|
可观测系统架构和设计思路 1. 数据采集和聚合系统 2. 数据建模和汇总 3. 监控可视化和告警 |
|
可观测系统的主要功能 4. 指标监控系统 5. 日志和业务分析平台 6. 调用链路系统 |
|
可观测系统的业务指标 7. 大数据平台基本架构 8. 流式计算和业务指标分析 |
|
故障响应机制建设 1. 故障分级和处理流程 |
|
基础设施故障 2. 硬件故障和服务迁移 3. 存储故障和数据恢复 |
|
核心组件故障 4. 一致性错误和主备切换 5. 资源耗尽和限流降级 |
|
业务应用故障 6. 应用监控和变更管理 7. 容量规划和自动扩容 8. 混合云和跨机房容灾 |
|
SRE平台建设 1. 应用监控和自动化回滚 2. 日志的智能筛选和降噪 3. 轻微故障自愈 4. 常态化故障演练 |
|
AI Ops的落地实践 5. 容量预测和故障预测 6. 链路异常感知 7. 智能化故障根因分析 8. 大模型结合CMDB构建运维知识图谱 |
近期公开课推荐