Apr, 2021

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

TL;DR本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。