Jun, 2024

Parm: 大规模稀疏激活模型的高效训练与专用计划

TL;DRParm是一个加速MP+EP+ESP训练的系统,通过设计两个专用调度来消除冗余计算和通信任务,实现节点内和节点间通信的重叠,从而减少总体训练时间。在8-GPU服务器和32-GPU集群上的实验结果表明,Parm优于最先进的MoE训练系统DeepSpeed-MoE,在1296个手动配置的MoE层上获得1.13倍至5.77倍的加速,并在基于BERT和GPT-2的两个真实MoE模型上实现了大约3倍的改进。