Mar, 2023

一种新颖的张量专家混合并行方法用于规模化专家混合训练

TL;DR本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。