分布式系统智能化运维（定制）-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

本课程为期三天，围绕分布式系统智能化运维展开，旨在帮助学员掌握分布式系统的基础理论、架构设计、智能化运维方法及故障处理能力。课程内容涵盖分布式系统的核心概念、常见算法、架构设计及关键组件剖析，同时深入讲解智能化运维的核心理念和实践方法，包括自动化运维、AIOps、可观测系统设计等。学员将学习如何构建高效的故障响应机制、实现系统快速排障与恢复，并了解分布式系统运维的最新趋势，如SRE平台建设和AI Ops落地实践。通过理论与实践相结合的教学方式，课程将帮助学员全面提升分布式系统的运维能力，为企业数字化转型提供技术支撑。

目标收益

掌握分布式系统的基础理论与架构设计，了解数据一致性算法、事务实现算法及系统分类。
深入理解分布式系统智能化运维的核心理念，包括自动化运维、AIOps及可观测系统设计。
提升故障处理能力，学习快速排障、恢复及容灾方案，保障系统的高可用性。
掌握分布式系统的监控与观测能力，构建指标监控、日志分析及调用链路系统。
了解分布式系统运维的最新趋势，包括SRE平台建设、AI Ops实践及运维知识图谱构建。

培训对象

课程大纲

分布式系统概述	1. 分布式系统定义、特点及核心价值 2. 分布式系统与集中式系统的差异对比
分布式系统中的常见算法	3. 分布式中的数据一致性算法 4. 分布式系统的事务实现算法
分布式系统的分类	5. 分布式数据库系统简介 6. 分布式微服务系统简介
混合云和容灾	7. 多机房分布式和混合云系统 8. 同城容灾和异地容灾系统
分布式系统的基本架构	1. 分布式资源的池化管理平台 2. 分布式存储系统 3. 分布式计算任务的调度
分布式系统中的核心组件	4. 分布式系统的服务注册和服务发现 5. 分布式系统的流量控制和调度 6. 分布式系统的鉴权和访问控制
分布式系统的关键功能设计	7. 分布式系统的网关设计 8. 分布式系统的可观测系统设计
自动化运维平理念的演进	1. DevOps和自动化运维脚本系统 2. GitOps和声明式配置管理系统 3. AIOps的智能化运维系统设计
自动化运维平台功能设计	4. CMDB和应用蓝图 5. 应用自动化发布流水线 6. 资源管理和服务拓扑图 7. 运维操作和配置管理 8. 日志、观测，监控、告警等功能
可观测系统架构和设计思路	1. 数据采集和聚合系统 2. 数据建模和汇总 3. 监控可视化和告警
可观测系统的主要功能	4. 指标监控系统 5. 日志和业务分析平台 6. 调用链路系统
可观测系统的业务指标	7. 大数据平台基本架构 8. 流式计算和业务指标分析
故障响应机制建设	1. 故障分级和处理流程
基础设施故障	2. 硬件故障和服务迁移 3. 存储故障和数据恢复
核心组件故障	4. 一致性错误和主备切换 5. 资源耗尽和限流降级
业务应用故障	6. 应用监控和变更管理 7. 容量规划和自动扩容 8. 混合云和跨机房容灾
SRE平台建设	1. 应用监控和自动化回滚 2. 日志的智能筛选和降噪 3. 轻微故障自愈 4. 常态化故障演练
AI Ops的落地实践	5. 容量预测和故障预测 6. 链路异常感知 7. 智能化故障根因分析 8. 大模型结合CMDB构建运维知识图谱

分布式系统概述

1. 分布式系统定义、特点及核心价值
2. 分布式系统与集中式系统的差异对比

分布式系统中的常见算法

3. 分布式中的数据一致性算法
4. 分布式系统的事务实现算法

分布式系统的分类

5. 分布式数据库系统简介
6. 分布式微服务系统简介

混合云和容灾

7. 多机房分布式和混合云系统
8. 同城容灾和异地容灾系统

分布式系统的基本架构

1. 分布式资源的池化管理平台
2. 分布式存储系统
3. 分布式计算任务的调度

分布式系统中的核心组件

4. 分布式系统的服务注册和服务发现
5. 分布式系统的流量控制和调度
6. 分布式系统的鉴权和访问控制

分布式系统的关键功能设计

7. 分布式系统的网关设计
8. 分布式系统的可观测系统设计

自动化运维平理念的演进

1. DevOps和自动化运维脚本系统
2. GitOps和声明式配置管理系统
3. AIOps的智能化运维系统设计

自动化运维平台功能设计

4. CMDB和应用蓝图
5. 应用自动化发布流水线
6. 资源管理和服务拓扑图
7. 运维操作和配置管理
8. 日志、观测，监控、告警等功能

可观测系统架构和设计思路

1. 数据采集和聚合系统
2. 数据建模和汇总
3. 监控可视化和告警

可观测系统的主要功能

4. 指标监控系统
5. 日志和业务分析平台
6. 调用链路系统

可观测系统的业务指标

7. 大数据平台基本架构
8. 流式计算和业务指标分析

故障响应机制建设

1. 故障分级和处理流程

基础设施故障

2. 硬件故障和服务迁移
3. 存储故障和数据恢复

核心组件故障

4. 一致性错误和主备切换
5. 资源耗尽和限流降级

业务应用故障

6. 应用监控和变更管理
7. 容量规划和自动扩容
8. 混合云和跨机房容灾

SRE平台建设

1. 应用监控和自动化回滚
2. 日志的智能筛选和降噪
3. 轻微故障自愈
4. 常态化故障演练

AI Ops的落地实践

5. 容量预测和故障预测
6. 链路异常感知
7. 智能化故障根因分析
8. 大模型结合CMDB构建运维知识图谱

分布式系统智能化运维（定制）

运维专家

课程费用

5800.00 /人

课程时长

3天