Jul, 2020

DAPPLE:一个用于训练大模型的流水线数据并行方法

TL;DR提出了一种称为 DAPPLE 的同步训练框架,它将数据并行和管道并行相结合,采用新颖的并行化策略规划器解决了分区和放置问题,并探索了数据和管道并行的最佳混合策略。与 GPipe 相比,DAPPLE 运行时间提高了 1.6 倍的训练吞吐量,并将内存消耗降低了 12%。