Jan, 2024

LocMoE:一种用于大型语言模型训练的低开销 MoE

TL;DR通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性。