架构师
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

大模型时代下的云原生AI基础设施优化实践

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

成为教练

课程简介

大模型时代对云原生基础设施提出了新的挑战,LLM的训练瓶颈已经从计算转变为网络。许多高吞吐量和低延迟的互连技术被广泛使用,例如nvlink、nvswitch用于构建超级计算机,如SuperPod、谷歌Multi-slice等。 然而,Kubernetes尚未有效地感知底层高速互联的网络拓扑,导致在资源分配不佳时性能较低,另一方面Kubernetes在工作负载层面缺乏对于TP、DP、PP等大模型并行范式的考虑和支持。 本次演讲将探讨大模型训练面临的挑战、典型的节点间通信以及节点内网络拓扑。还将分析网络拓扑如何影响AI工作负载的运行性能,特别是对于大型语言模型训练,华为云原生基础设施针对LLM训练场景,进行了新的建模以及优化,并在大规模万卡训练实践中取得了显著的效果。

目标收益

培训对象

课程内容

1.   了解业界首个针对大模型、超级节点网络拓扑的AI调度方案及实践案例
2.    案例具备通用性,听众可参考或采用,避免踩坑
3.    大模型训练团队的成员,可以学到最新的方法论、优化技能

课程费用

6800.00 /人

课程时长

50分钟以下及更短时间

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

提交需求