Apr, 2024

加速混合专家模型的快速连通专家并行

TL;DR提出了一种名为 ScMoE 的新型快捷连接的 MoE 架构,通过重叠并行策略有效地将通信与传统序列解耦,与普遍的前 2 名 MoE 架构相比,在 PCIe 和 NVLink 硬件环境中显示出 30% 和 11% 的训练速度提升,并且在推断方面提升了 40% 和 15%,其中通信占总 MoE 时间消耗的 60% 和 15%。此外,广泛的实验和理论分析表明,ScMoE 在视觉和语言任务中不仅达到了可比较的模型质量,而且在某些情况下超越了现有方法。