运维实践培训【定制】-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

让学员深入理解运维自动化演进路径。熟悉云原生背景下的运维变革以及SRE 运维模式。掌握 AI 自动化运维在大数据基础、机器学习算法与运维场景适配等方面的知识与技能。能够将所学应用于实际工作，提升运维效率与质量。

目标收益

培训对象

课程大纲

一、自动化运维、DevOps和SRE	1.自动化运维基础 -运维的发展过程：手动运维、脚本化阶段、工具化阶段、平台化阶段。 -自动化运维的优势：批量快速执行、可重复/标准化、提高运维人员技能水平。 -自动化运维主要工具：Ansible适用于小型场景、SaltStack -声明式API运维：IaC将基础设施的配置、部署流程以代码形式描述和管理 -自动化运维中的gitops：利用声明式配置来管理IT资源、并使用git仓库管理运维脚本和资源配置脚本。【案例实战分析】：利用Terraform和Ansible实现资源的配置 2.DevOps思想 -DevOps 的产生的背景：敏捷开发普及后对 “快速交付” 的更高需求。传统模式开发与运维割裂导致 “开发快、交付慢” -DevOps 的定义：DevOps 是开发（Development）和运维（Operations）的融合，旨在打破研发全生命周期中的部门壁垒，实现软件快速、可靠交付。 -DevOps 的四要素（CAMS 模型）：文化（Culture）、自动化（Automation）、测量（Measurement）、共享（Sharing） -DevOps 的文化和组织：协作文化、责任共担、持续学习、容忍失败。 “职能型团队”到特性团队（Feature Team） -DevOps 与敏捷开发的关系：目标一致：均以 “快速交付价值” 为核心，相辅相成： -敏捷强调 “开发过程的灵活性”，DevOps 强调 “交付全流程的高效性”。范围不同：敏捷聚焦 “开发阶段”，DevOps 覆盖 “全生命周期” -DevOps 研发流程与工具链：（Plan → Code → Build → Test → Deploy → Operate → Monitor → Plan）。项目管理、代码管理、代码质量、自动化测试、CI/CD 工具、IaC 工具、监控工具。 -DevOps 核心实践：持续集成（CI）、持续交付（CD）、基础设施即代码（IaC）、持续测试（CT）、监控与可观测性【案例实战分析】：利用GitLab和JIRA实现DevOps平台 3.SRE 运维模式 -SRE 的起源与发展：起源：2003 年由 Google 提出，最初为解决搜索引擎、Gmail 等服务的 “大规模运维困境” -SRE 的定义：SRE（Site Reliability Engineering，站点可靠性工程）核心是 “用代码替代人工操作”，以保障大规模、高复杂度系统的可靠性。 -SRE 的核心目标：保障服务可靠性、推动系统可扩展性、实现运维自动化。 -SRE 的角色与职责：定义 SLI/SLO/SLA，可靠性保障、管理错误预算、主导故障复盘、开发自动化工具、实现代码化管理（XaC）、向管理层提供可靠性数据报告。 -SRE关键指标：服务级别指标（SLI）、量化衡量服务性能和可靠性。可用性（Availability），延迟（Latency），错误率（Error Rate），吞吐量（Throughput） -SRE关键指标：服务级别目标（SLO）、对 SLI 设定的目标值，是SRE 团队的核心工作基准。 -SRE关键指标：服务级别协议（SLA）、用户（或内部团队）签订的具有约束力的协议 -SRE关键指标：错误预算、系统允许出现的故障或性能不达标时间的总量 -SRE主要工作：自动化运维、监控与可观测性、容量规划与性能优化、灾备与容错设计、故障管理与复盘【案例实战分析】：SRE常见开源工具讲解
二、云原生背景运维	1.云原生定义与容器 -云原生的定义和由来：指利用云计算基础设施和平台特性构建和运行应用的方法。 -云原生核心技术：如容器技术（Docker）、容器编排引擎（Kubernetes）、服务网格（Istio）、微服务框架（Spring Cloud 等）、持续集成 / 持续部署（CI/CD）工具（Jenkins、GitLab CI 等）。 -容器的发展历史：cgroups 和 namespace的出现预示着容器的出现，LXC整合到linux内核进一步普及容器，Docker 的出现为容器提供了产品标准。 -容器的基本概念：通过镜像、容器、仓库等。实现了应用的标准化发布 -容器的技术内幕：cgroups实现资源限制、Namespace实现资源隔离、Mount Namespace 隔离文件系统挂载点、Overlay Network虚拟网络栈、UnionFS联合文件系统实现镜像的高效存储。 -其他容器产品简介：containerd和OCI容器标准、无守护进程的podman、强隔离性的安全容器产品【案例实战分析】：利用Docker搭建应用发布平台 2.Kubernetes 核心概念 -容器编排的定义和主要功能： -Kubernetes 的基本概念：如 Pod（容器组）、Service（服务发现与负载均衡）、Deployment（应用部署与管理）、Namespace（资源隔离）等。 -Kubernetes 的网络和存储：常见的CNI协议如Flannel、Calico -Kubernetes 的存储配置：PersistentVolume（PV）与 PersistentVolumeClaim（PVC）的绑定，StorageClass 动态供给存储 -Kubernetes 的核心组件：集群的统一入口API Server、分布式键值存储etcd、 Pod 的调度Scheduler、多种控制器进程Controller Manager、Pod 生命周期管理Kubelet、网络代理Kube-proxy、容器运行时containerd、CRI-O。【案例实战分析】：Kubernetes 的部署和日常运维 3.微服务和服务网格 -微服务的核心概念与特点：独立运行的小型服务，去中心化治理、轻量级通信协议 -微服务的设计原则：单一职责原则、边界上下文原则、API优先设计、容错与弹性设计。 -微服务和容器的结合：容器为微服务提供标准化部署单元，实现快速启停、资源隔离、环境一致性、弹性伸缩等微服务管理难题。 -微服务注册中心：负责服务自动注册与状态监控如Eureka、Nacos； -微服务网关：负责请求路由、负载均衡、认证授权如Kong、APISIX -微服务的通讯协议：HTTP/REST：基于标准HTTP协议、gRPC：高性能、基于Protobuf的RPC框架、消息队列：异步通信模式，如RocketMQ、RabbitMQ -服务网格的定义：为微服务提供标准服务管理和的网络通信基础设施 -服务网格的组成：数据平面的Sidecar代理、控制平面的策略管理、配置分发、证书管理 -服务网格关键能力：流量管理、可观测性、安全 -服务网格的常见模式：Sidecar 模式、proxyless模式、Ambient 模式【案例实战分析】：istio和Higress的部署
三、大数据和统一运维平台	1.大数据技术简介 -大数据的技术简介：3篇论文、5V特性、 -Hadoop技术栈：分布式文件系统HDFS、分布式列存储数据库HBase、离线处理MapReduce、 -数据计算框架：快速批处理Spark、实时流处理框架Flink、 -数据仓库技术：HIVE，Trino数据查询引擎、ClickHouse列式存储 -数据湖技术：Parquet ORC数据存储、Delta Lake、Iceberg数据湖 -日志处理的常见框架ELK：Elasticsearch日志存储与检索引擎、Logstash日志处理管道、Kibana日志可视化平台、Beats轻量级数据采集器。【案例实战分析】：利用ELK框架处理日志 2.大数据分析平台的建设 -传统大数据的数据割裂：数据不一致、开发维护成本高、资源利用率低等 -大数据的架构进化：Lambda架构与Kappa架构。 -流批一体的概念与理念：一套班子、一套系统、一个逻辑的含义：统一开发人员角色，使用同一套数据处理技术框架，保持离线和实时计算逻辑一致。 -技术架构分层：数据采集层、消息队列层、存储层、计算层、元数据管理层、调度与协调层。 -数据采集层：流批一体系统的 “数据源头”，需同时支持实时增量数据（如数据库变更、日志流）和离线批量数据 -消息队列层：实时数据流的 “暂存与转发中心”，解决数据生产与消费的速度不匹配问题，同时支持流处理（实时消费）和批处理（历史数据回溯）的协同。 -存储层：流批一体系统的 “数据底座”，通过数据湖表格式实现 “一份数据、两种访问模式 -计算层：流批一体系统的 “大脑”，通过统一的计算引擎执行数据处理逻辑（如清洗、聚合、分析），核心目标是 “一套代码、两种执行模式”（流模式 / 批模式），避免重复开发。 -元数据管理层：负责管理系统中所有数据的描述信息（如 Schema、分区、血缘），核心目标是 “让流批数据可发现、可追溯、可信任”。 -调度与协调层：负责管理流批任务的资源分配、依赖关系和生命周期，核心目标是 “高效、稳定、可扩展” 地执行任务，避免资源浪费和任务冲突。【案例实战分析】：流批一体的大数据处理平台 3.应用和平台的可观测 -可观测性的定义：通过系统输出的外部数据（日志、指标、链路），全面理解系统内部运行状态的能力。 -与监控系统的区别：“主动发现未知问题” 而非仅 “监控已知指标” -可观测性的核心价值：缩短故障排查时间、提升系统可靠性、支撑业务决策 -可观测性的三大支柱：日志（Logs）、指标（Metrics）、链路追踪（Traces） -日志的存储和分级：结构化日志、非结构化日志、二进制日志。根据日志级别分级存储与处理 -指标和报警体系：指标只可以分为系统层、应用层、业务层。指标属于结构化时间序列数据，相比日志更轻量化，支持聚合性计算。 -链路追踪的作用：识别服务依赖瓶颈、优化调用路径、排查偶发故障。链路追踪的核心指标包括：链路长度、单 Span 耗时、错误传播率 -链路追踪的实现：分布式追踪模型通过Trace ID（全局唯一标识一个请求）和Span ID（标识请求中的一个服务调用环节）关联整个链路。 -多维报警体系设计：日志报警、指标报警、链路报警。注意报警降噪，报警关联、报警升级。 -分析与展示层：多维度关联分析、统一仪表盘设计、智能分析能力【案例实战分析】：一体化运维管理平台功能设计
四、机器学习、大模型和AIOPS	1.机器学习算法和运维 -机器学习基础概念：监督 / 无监督 / 强化学习的核心区别、 -模型训练全流程：数据采集→特征工程→模型迭代→部署监控 -常见机器学习算法：逻辑回归、随机森林、XGBoost/LightGBM、K-means、DBSCAN、PCA -逻辑回归：二分类场景。通过历史故障数据训练，输出故障概率 -随机森林：多特征融合。融合服务器、网络、应用三层指标，识别复杂关联故障 -XGBoost/LightGBM：时序预测。基于历史性能指标，预测资源瓶颈，支撑容量规划 -K-means：指标聚类的。对同批次服务器的性能指标聚类，识别 “性能偏移” 的异常节点 -DBSCAN：密度异常检测。基于源 IP、端口、流量大小等特征，识别 DDoS 攻击等突发异常 -PCA：高维指标降维的。将服务器的 CPU、内存、磁盘、网络等 20 + 指标降维，可视化展示系统状态【案例实战分析】：服务器故障预测模型构建 2.大模型技术原理与应用 -大模型定义：大模型是具有大规模参数（通常数十亿至万亿级）和复杂计算结构的机器学习模型，通过海量数据训练学习复杂模式和特征。 -大模型的优势：通用性与泛化能力，可处理多模态任务（通用文本、图像、语音），无需为单一任务单独训练。 -大模型的Transformer 架构：通过自注意力机制，突破远距离文本依赖学习限制，通过计算输入序列中每个元素与其他元素的关联程度，有效捕捉全局依赖关系。 -生成式模型工作流程：文本经分词、向量化后进入 Transformer 架构的编码器提取特征，解码器依据编码器输出和已生成的前文逐步生成后续文本，直至生成完整文本。 -开源的大模型的关键参数：参数量与硬件需求、上下文窗口长度、推理速度、显存占用计算 -大模型常见应用：模型微调（Fine - tuning）、RAG 系统维护、Agent 服务运维 -大模型蒸馏：将复杂大模型（教师模型）的知识迁移到简单小模型（学生模型）的技术。 -MOE（混合专家模型）：由多个专家子网络和一个路由机制组成，根据输入特征将不同输入分配给不同的专家子网络处理，最后综合专家的输出得到结果【案例实战分析】：大模型在运维场景的应用 3.大数据、机器学习及 AIOPS -AIOPS 定义与目标：以数据驱动为核心，通过大数据，机器学习、大模型等技术实现运维全流程自动化的体系。 -AIOPS 的目标：自动化闭环：从 “异常检测→根因定位→故障修复” 全流程无需人工干预、预测性维护：提前识别潜在风险、资源动态优化：基于业务负载实时调整资源分配 -AIOPS 核心框架：数据层、算法层、应用层、 -数据层：构建 “全域数据湖”，整合监控指标、链路追踪、工单等异构数据。通过数据标准化实现跨源关联。 -算法层：搭建 “混合算法库”，包含传统机器学习模型（负责指标预测、规则生成）、大模型（负责文本解析、方案生成） -应用层：预测性维护、自动化根因分析、自动化故障自愈、动态阈值与告警优化、智能容量规划 -机器学习、大模型与大数据的协同：大数据技术解决了数据的规模和处理效率问题，机器学习擅长从结构化数据中挖掘数据规律和构建预测模型，大模型则能够处理和理解复杂的非结构化数据，三者协同形成 “数据处理 - 规律挖掘 - 语义理解” 的完整能力链条，提升运维智能化水平。【案例实战分析】：AIOPS 平台落地

一、自动化运维、DevOps和SRE

1.自动化运维基础
-运维的发展过程：手动运维、脚本化阶段、工具化阶段、平台化阶段。
-自动化运维的优势：批量快速执行、可重复/标准化、提高运维人员技能水平。
-自动化运维主要工具：Ansible适用于小型场景、SaltStack
-声明式API运维：IaC将基础设施的配置、部署流程以代码形式描述和管理
-自动化运维中的gitops：利用声明式配置来管理IT资源、并使用git仓库管理运维脚本和资源配置脚本。
【案例实战分析】：利用Terraform和Ansible实现资源的配置

2.DevOps思想
-DevOps 的产生的背景：敏捷开发普及后对 “快速交付” 的更高需求。传统模式开发与运维割裂导致 “开发快、交付慢”
-DevOps 的定义：DevOps 是开发（Development）和运维（Operations）的融合，旨在打破研发全生命周期中的部门壁垒，实现软件快速、可靠交付。
-DevOps 的四要素（CAMS 模型）：文化（Culture）、自动化（Automation）、测量（Measurement）、共享（Sharing）
-DevOps 的文化和组织：协作文化、责任共担、持续学习、容忍失败。 “职能型团队”到特性团队（Feature Team）
-DevOps 与敏捷开发的关系：目标一致：均以 “快速交付价值” 为核心，相辅相成：
-敏捷强调 “开发过程的灵活性”，DevOps 强调 “交付全流程的高效性”。范围不同：敏捷聚焦 “开发阶段”，DevOps 覆盖 “全生命周期”
-DevOps 研发流程与工具链：（Plan → Code → Build → Test → Deploy → Operate → Monitor → Plan）。项目管理、代码管理、代码质量、自动化测试、CI/CD 工具、IaC 工具、监控工具。
-DevOps 核心实践：持续集成（CI）、持续交付（CD）、基础设施即代码（IaC）、持续测试（CT）、监控与可观测性
【案例实战分析】：利用GitLab和JIRA实现DevOps平台

3.SRE 运维模式
-SRE 的起源与发展：起源：2003 年由 Google 提出，最初为解决搜索引擎、Gmail 等服务的 “大规模运维困境”
-SRE 的定义：SRE（Site Reliability Engineering，站点可靠性工程）核心是 “用代码替代人工操作”，以保障大规模、高复杂度系统的可靠性。
-SRE 的核心目标：保障服务可靠性、推动系统可扩展性、实现运维自动化。
-SRE 的角色与职责：定义 SLI/SLO/SLA，可靠性保障、管理错误预算、主导故障复盘、开发自动化工具、实现代码化管理（XaC）、向管理层提供可靠性数据报告。
-SRE关键指标：服务级别指标（SLI）、量化衡量服务性能和可靠性。可用性（Availability），延迟（Latency），错误率（Error Rate），吞吐量（Throughput）
-SRE关键指标：服务级别目标（SLO）、对 SLI 设定的目标值，是SRE 团队的核心工作基准。
-SRE关键指标：服务级别协议（SLA）、用户（或内部团队）签订的具有约束力的协议
-SRE关键指标：错误预算、系统允许出现的故障或性能不达标时间的总量
-SRE主要工作：自动化运维、监控与可观测性、容量规划与性能优化、灾备与容错设计、故障管理与复盘
【案例实战分析】：SRE常见开源工具讲解

二、云原生背景运维

1.云原生定义与容器
-云原生的定义和由来：指利用云计算基础设施和平台特性构建和运行应用的方法。
-云原生核心技术：如容器技术（Docker）、容器编排引擎（Kubernetes）、服务网格（Istio）、微服务框架（Spring Cloud 等）、持续集成 / 持续部署（CI/CD）工具（Jenkins、GitLab CI 等）。
-容器的发展历史：cgroups 和 namespace的出现预示着容器的出现，LXC整合到linux内核进一步普及容器，Docker 的出现为容器提供了产品标准。
-容器的基本概念：通过镜像、容器、仓库等。实现了应用的标准化发布
-容器的技术内幕：cgroups实现资源限制、Namespace实现资源隔离、Mount Namespace 隔离文件系统挂载点、Overlay Network虚拟网络栈、UnionFS联合文件系统实现镜像的高效存储。
-其他容器产品简介：containerd和OCI容器标准、无守护进程的podman、强隔离性的安全容器产品
【案例实战分析】：利用Docker搭建应用发布平台

2.Kubernetes 核心概念
-容器编排的定义和主要功能：
-Kubernetes 的基本概念：如 Pod（容器组）、Service（服务发现与负载均衡）、Deployment（应用部署与管理）、Namespace（资源隔离）等。
-Kubernetes 的网络和存储：常见的CNI协议如Flannel、Calico
-Kubernetes 的存储配置：PersistentVolume（PV）与 PersistentVolumeClaim（PVC）的绑定，StorageClass 动态供给存储
-Kubernetes 的核心组件：集群的统一入口API Server、分布式键值存储etcd、 Pod 的调度Scheduler、多种控制器进程Controller Manager、Pod 生命周期管理Kubelet、网络代理Kube-proxy、容器运行时containerd、CRI-O。
【案例实战分析】：Kubernetes 的部署和日常运维

3.微服务和服务网格
-微服务的核心概念与特点：独立运行的小型服务，去中心化治理、轻量级通信协议
-微服务的设计原则：单一职责原则、边界上下文原则、API优先设计、容错与弹性设计。
-微服务和容器的结合：容器为微服务提供标准化部署单元，实现快速启停、资源隔离、环境一致性、弹性伸缩等微服务管理难题。
-微服务注册中心：负责服务自动注册与状态监控如Eureka、Nacos；
-微服务网关：负责请求路由、负载均衡、认证授权如Kong、APISIX
-微服务的通讯协议：HTTP/REST：基于标准HTTP协议、gRPC：高性能、基于Protobuf的RPC框架、消息队列：异步通信模式，如RocketMQ、RabbitMQ
-服务网格的定义：为微服务提供标准服务管理和的网络通信基础设施
-服务网格的组成：数据平面的Sidecar代理、控制平面的策略管理、配置分发、证书管理
-服务网格关键能力：流量管理、可观测性、安全
-服务网格的常见模式：Sidecar 模式、proxyless模式、Ambient 模式
【案例实战分析】：istio和Higress的部署

三、大数据和统一运维平台

1.大数据技术简介
-大数据的技术简介：3篇论文、5V特性、
-Hadoop技术栈：分布式文件系统HDFS、分布式列存储数据库HBase、离线处理MapReduce、
-数据计算框架：快速批处理Spark、实时流处理框架Flink、
-数据仓库技术：HIVE，Trino数据查询引擎、ClickHouse列式存储
-数据湖技术：Parquet ORC数据存储、Delta Lake、Iceberg数据湖
-日志处理的常见框架ELK：Elasticsearch日志存储与检索引擎、Logstash日志处理管道、Kibana日志可视化平台、Beats轻量级数据采集器。
【案例实战分析】：利用ELK框架处理日志

2.大数据分析平台的建设
-传统大数据的数据割裂：数据不一致、开发维护成本高、资源利用率低等
-大数据的架构进化：Lambda架构与Kappa架构。
-流批一体的概念与理念：一套班子、一套系统、一个逻辑的含义：统一开发人员角色，使用同一套数据处理技术框架，保持离线和实时计算逻辑一致。
-技术架构分层：数据采集层、消息队列层、存储层、计算层、元数据管理层、调度与协调层。
-数据采集层：流批一体系统的 “数据源头”，需同时支持实时增量数据（如数据库变更、日志流）和离线批量数据
-消息队列层：实时数据流的 “暂存与转发中心”，解决数据生产与消费的速度不匹配问题，同时支持流处理（实时消费）和批处理（历史数据回溯）的协同。
-存储层：流批一体系统的 “数据底座”，通过数据湖表格式实现 “一份数据、两种访问模式
-计算层：流批一体系统的 “大脑”，通过统一的计算引擎执行数据处理逻辑（如清洗、聚合、分析），核心目标是 “一套代码、两种执行模式”（流模式 / 批模式），避免重复开发。
-元数据管理层：负责管理系统中所有数据的描述信息（如 Schema、分区、血缘），核心目标是 “让流批数据可发现、可追溯、可信任”。
-调度与协调层：负责管理流批任务的资源分配、依赖关系和生命周期，核心目标是 “高效、稳定、可扩展” 地执行任务，避免资源浪费和任务冲突。
【案例实战分析】：流批一体的大数据处理平台

3.应用和平台的可观测
-可观测性的定义：通过系统输出的外部数据（日志、指标、链路），全面理解系统内部运行状态的能力。
-与监控系统的区别：“主动发现未知问题” 而非仅 “监控已知指标”
-可观测性的核心价值：缩短故障排查时间、提升系统可靠性、支撑业务决策
-可观测性的三大支柱：日志（Logs）、指标（Metrics）、链路追踪（Traces）
-日志的存储和分级：结构化日志、非结构化日志、二进制日志。根据日志级别分级存储与处理
-指标和报警体系：指标只可以分为系统层、应用层、业务层。指标属于结构化时间序列数据，相比日志更轻量化，支持聚合性计算。
-链路追踪的作用：识别服务依赖瓶颈、优化调用路径、排查偶发故障。链路追踪的核心指标包括：链路长度、单 Span 耗时、错误传播率
-链路追踪的实现：分布式追踪模型通过Trace ID（全局唯一标识一个请求）和Span ID（标识请求中的一个服务调用环节）关联整个链路。
-多维报警体系设计：日志报警、指标报警、链路报警。注意报警降噪，报警关联、报警升级。
-分析与展示层：多维度关联分析、统一仪表盘设计、智能分析能力
【案例实战分析】：一体化运维管理平台功能设计

四、机器学习、大模型和AIOPS

1.机器学习算法和运维
-机器学习基础概念：监督 / 无监督 / 强化学习的核心区别、
-模型训练全流程：数据采集→特征工程→模型迭代→部署监控
-常见机器学习算法：逻辑回归、随机森林、XGBoost/LightGBM、K-means、DBSCAN、PCA
-逻辑回归：二分类场景。通过历史故障数据训练，输出故障概率
-随机森林：多特征融合。融合服务器、网络、应用三层指标，识别复杂关联故障
-XGBoost/LightGBM：时序预测。基于历史性能指标，预测资源瓶颈，支撑容量规划
-K-means：指标聚类的。对同批次服务器的性能指标聚类，识别 “性能偏移” 的异常节点
-DBSCAN：密度异常检测。基于源 IP、端口、流量大小等特征，识别 DDoS 攻击等突发异常
-PCA：高维指标降维的。将服务器的 CPU、内存、磁盘、网络等 20 + 指标降维，可视化展示系统状态
【案例实战分析】：服务器故障预测模型构建

2.大模型技术原理与应用
-大模型定义：大模型是具有大规模参数（通常数十亿至万亿级）和复杂计算结构的机器学习模型，通过海量数据训练学习复杂模式和特征。
-大模型的优势：通用性与泛化能力，可处理多模态任务（通用文本、图像、语音），无需为单一任务单独训练。
-大模型的Transformer 架构：通过自注意力机制，突破远距离文本依赖学习限制，通过计算输入序列中每个元素与其他元素的关联程度，有效捕捉全局依赖关系。
-生成式模型工作流程：文本经分词、向量化后进入 Transformer 架构的编码器提取特征，解码器依据编码器输出和已生成的前文逐步生成后续文本，直至生成完整文本。
-开源的大模型的关键参数：参数量与硬件需求、上下文窗口长度、推理速度、显存占用计算
-大模型常见应用：模型微调（Fine - tuning）、RAG 系统维护、Agent 服务运维
-大模型蒸馏：将复杂大模型（教师模型）的知识迁移到简单小模型（学生模型）的技术。
-MOE（混合专家模型）：由多个专家子网络和一个路由机制组成，根据输入特征将不同输入分配给不同的专家子网络处理，最后综合专家的输出得到结果
【案例实战分析】：大模型在运维场景的应用

3.大数据、机器学习及 AIOPS
-AIOPS 定义与目标：以数据驱动为核心，通过大数据，机器学习、大模型等技术实现运维全流程自动化的体系。
-AIOPS 的目标：自动化闭环：从 “异常检测→根因定位→故障修复” 全流程无需人工干预、预测性维护：提前识别潜在风险、资源动态优化：基于业务负载实时调整资源分配
-AIOPS 核心框架：数据层、算法层、应用层、
-数据层：构建 “全域数据湖”，整合监控指标、链路追踪、工单等异构数据。通过数据标准化实现跨源关联。
-算法层：搭建 “混合算法库”，包含传统机器学习模型（负责指标预测、规则生成）、大模型（负责文本解析、方案生成）
-应用层：预测性维护、自动化根因分析、自动化故障自愈、动态阈值与告警优化、智能容量规划
-机器学习、大模型与大数据的协同：大数据技术解决了数据的规模和处理效率问题，机器学习擅长从结构化数据中挖掘数据规律和构建预测模型，大模型则能够处理和理解复杂的非结构化数据，三者协同形成 “数据处理 - 规律挖掘 - 语义理解” 的完整能力链条，提升运维智能化水平。
【案例实战分析】：AIOPS 平台落地

运维实践培训【定制】

运维专家

课程费用

5800.00 /人

课程时长

2天