Feb, 2021

TeraPipe:用于大规模语言模型训练的令牌级管道并行化

TL;DR在本研究中,我们提出了一种新的维度,即在单个训练序列中执行流水线并行处理,以用于Transformer-based语言模型的高效训练,并开发了一种基于动态规划的算法TeraPipe,用于进行同步模型并行训练。我们证明,TeraPipe可以在使用48个p3.16xlarge实例的AWS集群上将最大的包含1750亿参数的GPT-3模型的训练速度提高5.0倍,相比最先进的模型并行方法,具有更细粒度的流水线并行处理。