课程简介
故障演练在这2年已然成为了各个公司都在探索的工程实践,它是一个遵循混沌工程实验原理并通过注入常见的故障场景来提升当前分布式系统的容错性的有效方式。混沌工程最早是由 Netflix 提出的,他们为了解决服务不稳定的问题创新性地引入了 ChaosMonkey,通过随机的给自己的服务制造混乱,从而促进工程师们在开发设计系统的时候就要考虑到服务的稳定性,这也逐渐成为了整个公司的工程师文化。后来,各大巨头google、 facebook、aws 、microsoft 也都采用了同样的方法来保障服务的稳定性。
历史总是惊人的相似,今天国内的互联网系统越来越复杂,很多公司也遇到了当初 Netflix 遇到的问题,因此故障演练开始进入大家的视线。本次工作坊旨在给大家讲解混沌工程理论与落地的经验。并通过此次工作坊,让大家可以设计出适合自己业务场景的故障演练平台,并切实的解决系统稳定性问题。
工作坊大纲:
一. 混沌工程介绍
1. 背景
2. 核心原则
3. 价值
二. 业内大厂是如何落地混沌工程的
1. 案例 - Netflix
2. 案例 - 阿里
3. 案例 - 携程
三. 我们是如何落地混沌工程的
1.流程设计
2.产品设计
2.1 故障画像分析
2.2 故障场景设计
2.3 故障预案设计
2.4 应用稳态指标设计
2.5 监控告警设计
2.6 演练范围设计
2.7 演练断路器设计
2.8 演练报告设计
3. 技术架构
4. 演练实战
四. 如何根据自己的场景落地混沌工程
目标收益
1. 了解混沌工程的背景、原理与价值
2. 了解业界大厂的混沌工程实践
3. 可以设计出适合自己的故障演练平台,并切实地提高线上系统的稳定性
培训对象
课程大纲
|