BriefGPT.xyz
Ask
alpha
关键词
all-to-all communication
搜索结果 - 1
Lancet: 通过整图计算 - 通信重叠加速混合专家训练
我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战,并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时
→
PDF
2 months ago
Prev
Next