Feb, 2023

TA-MoE: 拓扑感知的大规模专家混合训练

TL;DR本文提出了一种基于拓扑感知路由策略的 Sparsely gated Mixture-of-Expert 深度神经网络模型,可以根据不同的拓扑结构动态调整传输模式,并通过辅助引导学习自适应地适应拓扑结构,实验结果表明该模型在各种硬件和模型配置中比其竞争对手表现表现更好,改进了 1.01x-1.61x, 1.01x-4.77x, 1.25x-1.54x。