课程简介
当今的组织在更复杂的技术环境中处理更多的变化,这导致了更高的中断和事故风险。传统运维团队必须提高服务可靠性和系统弹性。随着自动化、可观测性和稳定性运营成为更高效、更快速部署的关键因素,SRE职位已成为增长最快的职位之一。
本次课程将围绕SRE体系架构展开,介绍SRE的核心概念、原理、思维方式和方法论,结合头部互联网的实践经验与案例,为参与者提供了具体的落地实践方法和执行流程,使其掌握提高团队效率和业务稳定性的核心方法。
目标收益
* 掌握SRE的知识体系、构建方法和团队转型实践经验
* 掌握构建与提升运维软件工程能力的关键方向方法
* 掌握运维数据资产体系的构建和平台(CMDB/服务树/业务树)设计方法
* 掌握运维/SRE效能体系的构建和平台(OnCall/流程/作业)设计方法
* 掌握业务稳定性运营体系的构建和平台(SLO/容量/事件运营)设计方法
培训对象
* 企业背景: 互联网公司以及计划落地SRE团队模式的传统企业
* 技术背景: 运维, 运维研发,SRE,软件研发,技术经理,架构师
课程大纲
SRE体系介绍 |
1、什么是SRE,发展起源与国内落地实践情况 2、SRE、运维、运维研发和DevOps的区别 3、SRE原则和日常 |
SRE组织构建与转型 |
1、SRE组织构建的核心 2、转型SRE的挑战与取舍 3、百人团队转型实践案例 |
SRE数据资产体系 |
1、数据资产的重要性 2、数据资产中台-CMDB 3、数据资产标准化、自动化体系建设思路和设计方法 4、以服务为核心的新思路-服务树 5、服务树与CMDB的区别 6、服务生命周期管理 |
SRE效能体系 |
1、琐事定义、发现与消减 2、效能体系架构介绍 3、OnCall规范、系统设计与最佳实践 4、流程引擎设计与最佳实践 5、作业引擎设计与最佳实践 |
SRE稳定性体系 |
1、稳定性运营体系介绍 2、SLO&错误预算的定义、设计与实践 3、容量管理的背景、挑战与运营实践 4、业务稳定性运营流程与平台化设计 5、故障的定级定责管理 6、风险预警体系构建和运营 |
管控平台的多活建设 |
1、内部平台的多活建设思路 2、建设阶段与实践 |
SRE体系介绍 1、什么是SRE,发展起源与国内落地实践情况 2、SRE、运维、运维研发和DevOps的区别 3、SRE原则和日常 |
SRE组织构建与转型 1、SRE组织构建的核心 2、转型SRE的挑战与取舍 3、百人团队转型实践案例 |
SRE数据资产体系 1、数据资产的重要性 2、数据资产中台-CMDB 3、数据资产标准化、自动化体系建设思路和设计方法 4、以服务为核心的新思路-服务树 5、服务树与CMDB的区别 6、服务生命周期管理 |
SRE效能体系 1、琐事定义、发现与消减 2、效能体系架构介绍 3、OnCall规范、系统设计与最佳实践 4、流程引擎设计与最佳实践 5、作业引擎设计与最佳实践 |
SRE稳定性体系 1、稳定性运营体系介绍 2、SLO&错误预算的定义、设计与实践 3、容量管理的背景、挑战与运营实践 4、业务稳定性运营流程与平台化设计 5、故障的定级定责管理 6、风险预警体系构建和运营 |
管控平台的多活建设 1、内部平台的多活建设思路 2、建设阶段与实践 |