Nov, 2022

广度优先流水线并行

TL;DR引入 Breadth-First Pipeline Parallelism,这是一种结合了 pipeline 和 data parallelism 的新型训练策略,通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性,以及完全分片的数据并行性,降低了训练时间、成本和内存使用。实验结果显示训练速度提高了 53%。