大模型时代下的云原生AI基础设施优化实践-精品课程-软件研发管理培训、咨询服务-MSUP

课程简介

大模型时代对云原生基础设施提出了新的挑战，LLM的训练瓶颈已经从计算转变为网络。许多高吞吐量和低延迟的互连技术被广泛使用，例如nvlink、nvswitch用于构建超级计算机，如SuperPod、谷歌Multi-slice等。然而，Kubernetes尚未有效地感知底层高速互联的网络拓扑，导致在资源分配不佳时性能较低，另一方面Kubernetes在工作负载层面缺乏对于TP、DP、PP等大模型并行范式的考虑和支持。本次演讲将探讨大模型训练面临的挑战、典型的节点间通信以及节点内网络拓扑。还将分析网络拓扑如何影响AI工作负载的运行性能，特别是对于大型语言模型训练，华为云原生基础设施针对LLM训练场景，进行了新的建模以及优化，并在大规模万卡训练实践中取得了显著的效果。

目标收益

培训对象

课程内容

1.   了解业界首个针对大模型、超级节点网络拓扑的AI调度方案及实践案例
2.    案例具备通用性，听众可参考或采用，避免踩坑
3.    大模型训练团队的成员，可以学到最新的方法论、优化技能

大模型时代下的云原生AI基础设施优化实践

华为云计算技术有限公司华为云云原生团队架构师

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI时代的数字化产品设计实践

企业级软件工程能力提升与软件研发过程优化

批流一体特征平台高级培训大纲

大模型时代下的云原生AI基础设施优化实践

华为云计算技术有限公司 华为云云原生团队 架构师

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

课程简介

目标收益

培训对象

课程内容

课程评论

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

近期公开课推荐

近期公开课推荐

AI时代的数字化产品设计实践

企业级软件工程能力提升与软件研发过程优化

批流一体特征平台高级培训大纲

华为云计算技术有限公司华为云云原生团队架构师