重新评估内存平衡的管道并行性：BPipe

Jan, 2024

重新评估内存平衡的管道并行性：BPipe

Re-evaluating the Memory-balanced Pipeline Parallelism: BPipe

Mincong Huang, Chao Wang, Chi Ma, Yineng Zhang, Peng Zhang...

TL;DR通过对 BPipe 技术在 GPT-3 和 LLaMA 模型上的性能分析以及对 BPipe 性能评估方法的引入，我们发现了 BPipe 在 GPT-3 和 LLaMA 训练上性能不同的原因，并提出了一种新的估算 BPipe 性能的方法。

Abstract

pipeline parallelism is an essential technique in the training of large-scale Transformer models. However, it suffers from imbalanced memory consumption, leading to insufficient memory utilization. The

pipeline parallelism memory consumption bpipe technique gpt-3 performance analysis

发现论文，激发创造

TeraPipe：用于大规模语言模型训练的令牌级管道并行化

在本研究中，我们提出了一种新的维度，即在单个训练序列中执行流水线并行处理，以用于 Transformer-based 语言模型的高效训练，并开发了一种基于动态规划的算法 TeraPipe，用于进行同步模型并行训练。我们证明，TeraPipe 可以在使用 48 个 p3.16xlarge 实例的 AWS 集群上将最大的包含 1750 亿参数的 GPT-3 模型的训练速度提高 5.0 倍，相比最先进的模型并行方法，具有更细粒度的流水线并行处理。

Feb, 2021

高效使用内存的管道并行深度神经网络训练

本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上，并考虑加速器的内存容量和互连拓扑等硬件限制，可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍，并保持模型精度相似。

Jun, 2020

GPipe：使用流水线并行化高效训练巨型神经网络

GPipe 是一种管道并行库，它提供了一种高效进行模型并行化的方式，可以将不同子层序列分别放在不同的加速器上，因此可以有效地将各种不同的网络扩展到巨大的规模，并且能够实现快速的线性加速，通过对两个不同任务的训练，证明了 GPipe 的优势。

Nov, 2018

PipeMare：异步管道并行 DNN 训练

该论文探讨了管道并行（Pipeline parallelism）训练神经网络的各种技术，提出了一种简单而健壮的训练方法，名为 PipeMare，可以在保持与同步训练相当的模型质量的情况下提高硬件利用率，允许高效使用细粒度的并行计算。在 ResNet 和 Transformer 网络上进行测试，异步训练允许 PipeMare 使用更少的内存或更高的管道利用率。

Oct, 2019

PipeTransformer: 基于自动化弹性管道的 Transformers 分布式训练

本研究提出了 PipeTransformer 来提高 Transformer 模型的多节点分布式训练效率，该方法通过自动化管线处理和数据并行来动态调整管线和并行策略，从而实现层的冻结和资源分配，结果表明 PipeTransformer 相较于现有算法可以提高 2.4 倍速度。

Feb, 2021

用于长上下文大模型的分块并行 Transformer

Blockwise Parallel Transformer (BPT) is a distinct approach to address memory demands posed by the self-attention mechanism and the large feedforward network in Transformers, which enables training sequences up to 32 times longer than vanilla Transformers and 2 to 4 times longer than previous memory-efficient methods, and improves performance in language modeling and reinforcement learning tasks.

May, 2023

可控内存的管道并行

通过重复构建块的方式，将流水线调度分解为生命周期的概念，并发现现有调度方案在内存利用方面存在问题。为了解决这个问题，引入了一系列具有可控激活内存的高效构建块，可以在不影响效率的情况下将峰值激活内存减少到 1F1B 的 1/2 甚至 1/3，同时几乎没有流水线气泡，以及在吞吐量方面表现优于 1F1B。在实践场景中对混合并行化超参数进行网格搜索时，相较于 1F1B 基准，我们提出的方法在大型语言模型上实现了 16% 的吞吐量提升。

May, 2024

图管道：通过图管道并行提高 DNN 训练的性能和可扩展性

深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。

Jun, 2024

DynaPipe: 通过动态管道优化多任务训练

多任务模型训练，采用动态微批处理和管道并行训练的方法提高训练效率。

Nov, 2023

零气泡管道并行化

通过引入一种调度策略，将后向传播计算拆分为两个部分，并开发一种自动优化调度的算法，以实现零流水线阻塞，并通过绕过同步的优化步骤技术，提高了管道并行性的潜力。

Nov, 2023