课程简介
大模型时代对云原生基础设施提出了新的挑战,LLM的训练瓶颈已经从计算转变为网络。许多高吞吐量和低延迟的互连技术被广泛使用,例如nvlink、nvswitch用于构建超级计算机,如SuperPod、谷歌Multi-slice等。 然而,Kubernetes尚未有效地感知底层高速互联的网络拓扑,导致在资源分配不佳时性能较低,另一方面Kubernetes在工作负载层面缺乏对于TP、DP、PP等大模型并行范式的考虑和支持。 本次演讲将探讨大模型训练面临的挑战、典型的节点间通信以及节点内网络拓扑。还将分析网络拓扑如何影响AI工作负载的运行性能,特别是对于大型语言模型训练,华为云原生基础设施针对LLM训练场景,进行了新的建模以及优化,并在大规模万卡训练实践中取得了显著的效果。
目标收益
培训对象
课程内容
1. 了解业界首个针对大模型、超级节点网络拓扑的AI调度方案及实践案例
2. 案例具备通用性,听众可参考或采用,避免踩坑
3. 大模型训练团队的成员,可以学到最新的方法论、优化技能