May, 2024

2BP:2 阶段反向传播

TL;DR通过将反向传播步骤分为两个独立阶段,本文引入 2 阶段反向传播(2BP),以减少空闲计算时间,并在各种模型架构和管道调度上测试 2BP,从而在所有情况下实现吞吐量的增加。使用 2BP,相较于传统方法,在训练一个类似 LLaMa 的 Transformer 时,能够实现吞吐量的 1.70 倍增长,模型参数为 70 亿个,跨 4 个 GPU。