广度优先流水线并行
深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。
Jun, 2024
采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe,结合基于分块的流水线训练方法以及混合并行性,以减少通信开销并加快训练时间,同时保持相当的模型准确性和收敛速度。
Aug, 2023
通过对 BPipe 技术在 GPT-3 和 LLaMA 模型上的性能分析以及对 BPipe 性能评估方法的引入,我们发现了 BPipe 在 GPT-3 和 LLaMA 训练上性能不同的原因,并提出了一种新的估算 BPipe 性能的方法。
Jan, 2024
该论文提出了一种基于 SpecTrain 的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高 GPU 利用率,相比数据并行法可提高 8.91 倍的速度。
Sep, 2018
通过重复构建块的方式,将流水线调度分解为生命周期的概念,并发现现有调度方案在内存利用方面存在问题。为了解决这个问题,引入了一系列具有可控激活内存的高效构建块,可以在不影响效率的情况下将峰值激活内存减少到 1F1B 的 1/2 甚至 1/3,同时几乎没有流水线气泡,以及在吞吐量方面表现优于 1F1B。在实践场景中对混合并行化超参数进行网格搜索时,相较于 1F1B 基准,我们提出的方法在大型语言模型上实现了 16% 的吞吐量提升。
May, 2024
通过将反向传播步骤分为两个独立阶段,本文引入 2 阶段反向传播(2BP),以减少空闲计算时间,并在各种模型架构和管道调度上测试 2BP,从而在所有情况下实现吞吐量的增加。使用 2BP,相较于传统方法,在训练一个类似 LLaMa 的 Transformer 时,能够实现吞吐量的 1.70 倍增长,模型参数为 70 亿个,跨 4 个 GPU。
May, 2024
本文探索了数据密集型、基于图的计算在分布式内存系统上实现的挑战,并提出了两种高度调优的并行 BFS 方法,一种为基于简单的基于顶点的图分区的级同步策略,另一种为基于二维稀疏矩阵分区的方法,同时也介绍了具有节点内多线程的混合版本。
Apr, 2011
GPipe 是一种管道并行库,它提供了一种高效进行模型并行化的方式,可以将不同子层序列分别放在不同的加速器上,因此可以有效地将各种不同的网络扩展到巨大的规模,并且能够实现快速的线性加速,通过对两个不同任务的训练,证明了 GPipe 的优势。
Nov, 2018
本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上,并考虑加速器的内存容量和互连拓扑等硬件限制,可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍,并保持模型精度相似。
Jun, 2020