Mar, 2023
一种新颖的张量专家混合并行方法用于规模化专家混合训练
A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training
Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He...
TL;DR本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。