Jan, 2022

使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成式语言模型

TL;DR本文描述了用于训练 Megatron-Turing NLG 530B (MT-NLG)的基础架构和 3D 并行方法,重点介绍了训练过程、训练语料库的设计和数据精选技术,以及各种评估结果和新特性。作者展示了 MT-NLG 在几个自然语言处理基准测试中具有更优秀的零点、一点和少点学习精度,并且取得了新的最先进结果。