广度优先流水线并行

Nov, 2022

Breadth-First Pipeline Parallelism

Joel Lamy-Poirier

TL;DR引入 Breadth-First Pipeline Parallelism，这是一种结合了 pipeline 和 data parallelism 的新型训练策略，通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性，以及完全分片的数据并行性，降低了训练时间、成本和内存使用。实验结果显示训练速度提高了 53%。

Abstract

We introduce breadth-first pipeline parallelism, a novel training schedule which optimizes the combination of pipeline and data parallelism

breadth-first pipeline parallelism training schedule data parallelism gpu utilization training speed

发现论文，激发创造

图管道：通过图管道并行提高 DNN 训练的性能和可扩展性

深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。

Jun, 2024

零气泡管道并行化

通过引入一种调度策略，将后向传播计算拆分为两个部分，并开发一种自动优化调度的算法，以实现零流水线阻塞，并通过绕过同步的优化步骤技术，提高了管道并行性的潜力。

Nov, 2023

GNNPipe: 使用流水线模型并行加速分布式全图 GNN 训练

采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe，结合基于分块的流水线训练方法以及混合并行性，以减少通信开销并加快训练时间，同时保持相当的模型准确性和收敛速度。

Aug, 2023

重新评估内存平衡的管道并行性：BPipe

通过对 BPipe 技术在 GPT-3 和 LLaMA 模型上的性能分析以及对 BPipe 性能评估方法的引入，我们发现了 BPipe 在 GPT-3 和 LLaMA 训练上性能不同的原因，并提出了一种新的估算 BPipe 性能的方法。

Jan, 2024

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

可控内存的管道并行

通过重复构建块的方式，将流水线调度分解为生命周期的概念，并发现现有调度方案在内存利用方面存在问题。为了解决这个问题，引入了一系列具有可控激活内存的高效构建块，可以在不影响效率的情况下将峰值激活内存减少到 1F1B 的 1/2 甚至 1/3，同时几乎没有流水线气泡，以及在吞吐量方面表现优于 1F1B。在实践场景中对混合并行化超参数进行网格搜索时，相较于 1F1B 基准，我们提出的方法在大型语言模型上实现了 16% 的吞吐量提升。

May, 2024

2BP：2 阶段反向传播

通过将反向传播步骤分为两个独立阶段，本文引入 2 阶段反向传播（2BP），以减少空闲计算时间，并在各种模型架构和管道调度上测试 2BP，从而在所有情况下实现吞吐量的增加。使用 2BP，相较于传统方法，在训练一个类似 LLaMa 的 Transformer 时，能够实现吞吐量的 1.70 倍增长，模型参数为 70 亿个，跨 4 个 GPU。

May, 2024

分布式内存系统中的并行广度优先搜索

本文探索了数据密集型、基于图的计算在分布式内存系统上实现的挑战，并提出了两种高度调优的并行 BFS 方法，一种为基于简单的基于顶点的图分区的级同步策略，另一种为基于二维稀疏矩阵分区的方法，同时也介绍了具有节点内多线程的混合版本。

Apr, 2011

GPipe：使用流水线并行化高效训练巨型神经网络

GPipe 是一种管道并行库，它提供了一种高效进行模型并行化的方式，可以将不同子层序列分别放在不同的加速器上，因此可以有效地将各种不同的网络扩展到巨大的规模，并且能够实现快速的线性加速，通过对两个不同任务的训练，证明了 GPipe 的优势。

Nov, 2018

高效使用内存的管道并行深度神经网络训练

本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上，并考虑加速器的内存容量和互连拓扑等硬件限制，可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍，并保持模型精度相似。

Jun, 2020