Apr, 2024

预测是所有 Moe 需要的:专家负载分配从波动到稳定

TL;DR通过追踪和分析大型语言模型训练过程中每个专家的负载,对其负载波动进行了分类并定义了 “明显负载波动” 的瞬态状态和 “时间局部性” 的稳态状态,并应用经典的预测算法实现了准确的专家负载预测,从而为 MoE 模型训练提供了宝贵的专家安置或资源分配指导。