Apr, 2024

Lancet: 通过整图计算 - 通信重叠加速混合专家训练

TL;DR我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战,并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时,显著减少了非重叠性通信所需的时间,最高达到 77%。此外,与同类解决方案相比,速度提升达到了显著的 1.3 倍。