Sep, 2019

Megatron-LM:使用模型并行训练十亿级语言模型

TL;DR本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。