May, 2024

LLM 训练中 MoE 和密集速度 - 准确性比较的再审视

TL;DR通过使用步进时间作为模型复杂度的更准确评估指标以及在 Chinchilla 计算最优设置下确定总计算预算,本研究重新审视了 Mixture-of-Experts(MoE)与密集模型之间的比较设置,并采用了 3D 分片方法来有效地运行 MoE,结果显示在速度 - 准确性权衡曲线上,MoE 在不同模型规模下始终优于密集模型。