May, 2024

LocMoE+:增强型路由器具有令牌特征感知的高效 LLM 预训练

TL;DRLocMoE + 是低成本的改进版本,通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题,验证实验结果显示,每个专家处理的令牌数量可以减少超过 60%,在与通信优化相结合的情况下,训练效率平均提高了 5.4% 至 46.6%,在微调后,LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。