Jul, 2021

Chimera: 用双向管道高效地训练大规模神经网络

TL;DR本研究提出了一种名为 Chimera 的新型管道并行方案,采用双向管道以有效训练大型深度学习模型,该方法是一种同步方法,相对于异步方法更加收敛友好,相对于最新的同步并行方法,Chimera 可以将冒泡数量减少多达 50% 。在基于 Transformer 的语言模型上进行评估,对于在 Piz Daint 超级计算机的 2,048 个 GPU 节点上运行的 13 亿参数的 GPT-2 模型,Chimera 将训练吞吐量提高了 1.16 倍 - 2.34 倍。