图管道:通过图管道并行提高 DNN 训练的性能和可扩展性
采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe,结合基于分块的流水线训练方法以及混合并行性,以减少通信开销并加快训练时间,同时保持相当的模型准确性和收敛速度。
Aug, 2023
GPipe 是一种管道并行库,它提供了一种高效进行模型并行化的方式,可以将不同子层序列分别放在不同的加速器上,因此可以有效地将各种不同的网络扩展到巨大的规模,并且能够实现快速的线性加速,通过对两个不同任务的训练,证明了 GPipe 的优势。
Nov, 2018
PipeDream 是一个用于 GPU 的深度神经网络 (DNN) 训练系统,使用管线并行计算模型来避免数据并行训练面临的慢速问题,并通过在多台机器上分别执行来减少通讯,使所有可用的 GPU 保持高生产效率。PipeDream 还使用循环排列的方式实现正向 / 反向传播以优化 时间精度,相对于数据并行训练,其可将通信减少高达 95%,达到了 5 倍的训练加速比。
Jun, 2018
该论文探讨了管道并行(Pipeline parallelism)训练神经网络的各种技术,提出了一种简单而健壮的训练方法,名为 PipeMare,可以在保持与同步训练相当的模型质量的情况下提高硬件利用率,允许高效使用细粒度的并行计算。在 ResNet 和 Transformer 网络上进行测试,异步训练允许 PipeMare 使用更少的内存或更高的管道利用率。
Oct, 2019
该论文提出了一种基于 SpecTrain 的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高 GPU 利用率,相比数据并行法可提高 8.91 倍的速度。
Sep, 2018
提出了 PiPAD,一种基于管道和并行设计的动态图神经网络 (DGNNs) 训练框架,用于在 GPU 上进行端到端性能优化。在各种数据集上的评估表明,PiPAD 在三种代表性模型上实现了 1.22 倍 - 9.57 倍的超越最先进的 DGNN 框架的加速。
Jan, 2023
提出了一种称为 DAPPLE 的同步训练框架,它将数据并行和管道并行相结合,采用新颖的并行化策略规划器解决了分区和放置问题,并探索了数据和管道并行的最佳混合策略。与 GPipe 相比,DAPPLE 运行时间提高了 1.6 倍的训练吞吐量,并将内存消耗降低了 12%。
Jul, 2020
本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上,并考虑加速器的内存容量和互连拓扑等硬件限制,可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍,并保持模型精度相似。
Jun, 2020
PipeGCN 是一种隐藏分布式图卷积网络(GCN)培训中节点特征和特征梯度通信开销的简单而有效的方案,在训练吞吐量(1.7 倍〜28.5 倍)大幅提高的同时实现与现有全图培训方法相同的精度。
Mar, 2022
通过将模型图分成 k 个阶段并减少瓶颈阶段的运行时间,我们通过最小化通信成本来优化深度神经网络(DNN)推理的流水线并行性。我们设计了针对这个 NP 困难问题的实际算法,并通过与通过新颖的混合整数规划(MIP)公式获得的强下界进行比较,证明它们在实践中几乎是最优的。我们将这些算法和下界方法应用于生产模型,从而在与标准组合下界相比,获得了显著改进的近似保证。这项工作表明,尽管最大吞吐量划分在理论上很困难,但我们在实践中对该问题的算法方面有所掌握,剩下的挑战主要在于开发更准确的成本模型以提供给划分算法。
Nov, 2023