May, 2025
潘古超大混合专家:如何在昇腾NPU上训练您的大型混合专家模型
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs
TL;DR本研究解决了稀疏大型语言模型(LLM)在昇腾NPU上训练时面临的资源利用和硬件性能挑战。通过模拟比较不同超参数配置,我们提出了Pangu Ultra MoE,一个具有7180亿参数的稀疏LLM,并实现了30.0%的模型训练利用率,验证了该方法在训练大型稀疏语言模型方面的高效性。研究结果表明,昇腾系统能够有效支持最先进语言模型的训练阶段。