Sep, 2021

多任务多语种模型的可扩展高效 MoE 训练

TL;DR采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。