Sep, 2021
多任务多语种模型的可扩展高效 MoE 训练
Scalable and Efficient MoE Training for Multitask Multilingual Models
Young Jin Kim, Ammar Ahmad Awan, Alexandre Muzio, Andres Felipe Cruz Salinas, Liyang Lu...
TL;DR采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。