Chimera: 用双向管道高效地训练大规模神经网络

Jul, 2021

Chimera: 用双向管道高效地训练大规模神经网络

Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines

Shigang Li, Torsten Hoefler

TL;DR本研究提出了一种名为 Chimera 的新型管道并行方案，采用双向管道以有效训练大型深度学习模型，该方法是一种同步方法，相对于异步方法更加收敛友好，相对于最新的同步并行方法，Chimera 可以将冒泡数量减少多达 50％。在基于 Transformer 的语言模型上进行评估，对于在 Piz Daint 超级计算机的 2,048 个 GPU 节点上运行的 13 亿参数的 GPT-2 模型，Chimera 将训练吞吐量提高了 1.16 倍 - 2.34 倍。

Abstract

Training large deep learning models at scale is very challenging. This paper proposes chimera, a novel pipeline parallelism scheme which c

deep learning pipeline parallelism chimera synchronous approach training throughput

发现论文，激发创造

GPipe：使用流水线并行化高效训练巨型神经网络

GPipe 是一种管道并行库，它提供了一种高效进行模型并行化的方式，可以将不同子层序列分别放在不同的加速器上，因此可以有效地将各种不同的网络扩展到巨大的规模，并且能够实现快速的线性加速，通过对两个不同任务的训练，证明了 GPipe 的优势。

Nov, 2018

TeraPipe：用于大规模语言模型训练的令牌级管道并行化

在本研究中，我们提出了一种新的维度，即在单个训练序列中执行流水线并行处理，以用于 Transformer-based 语言模型的高效训练，并开发了一种基于动态规划的算法 TeraPipe，用于进行同步模型并行训练。我们证明，TeraPipe 可以在使用 48 个 p3.16xlarge 实例的 AWS 集群上将最大的包含 1750 亿参数的 GPT-3 模型的训练速度提高 5.0 倍，相比最先进的模型并行方法，具有更细粒度的流水线并行处理。

Feb, 2021

PipeTransformer: 基于自动化弹性管道的 Transformers 分布式训练

本研究提出了 PipeTransformer 来提高 Transformer 模型的多节点分布式训练效率，该方法通过自动化管线处理和数据并行来动态调整管线和并行策略，从而实现层的冻结和资源分配，结果表明 PipeTransformer 相较于现有算法可以提高 2.4 倍速度。

Feb, 2021

PipeMare：异步管道并行 DNN 训练

该论文探讨了管道并行（Pipeline parallelism）训练神经网络的各种技术，提出了一种简单而健壮的训练方法，名为 PipeMare，可以在保持与同步训练相当的模型质量的情况下提高硬件利用率，允许高效使用细粒度的并行计算。在 ResNet 和 Transformer 网络上进行测试，异步训练允许 PipeMare 使用更少的内存或更高的管道利用率。

Oct, 2019

GNNPipe: 使用流水线模型并行加速分布式全图 GNN 训练

采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe，结合基于分块的流水线训练方法以及混合并行性，以减少通信开销并加快训练时间，同时保持相当的模型准确性和收敛速度。

Aug, 2023

高效使用内存的管道并行深度神经网络训练

本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上，并考虑加速器的内存容量和互连拓扑等硬件限制，可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍，并保持模型精度相似。

Jun, 2020

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

Chimera：融合所有令牌的无损解码方法用于加速大规模语言模型推理

通过引入轻量级的草稿模型，Chimera 提出了一种用于投机采样的新型框架，以有效利用先前生成的令牌来预测后续单词，显著提高了大型语言模型在解码过程中的效率。

Feb, 2024

Colossal-AI: 大规模并行训练的统一深度学习系统

该研究介绍了 Colossal-AI 系统，该系统可以将基于 Transformer 的深度学习模型训练从单个 GPU 扩展到分布式环境，实现了多种并行训练方法，提高了训练速度。

Oct, 2021

PipeDream: 快速高效的管道并行 DNN 训练

PipeDream 是一个用于 GPU 的深度神经网络 (DNN) 训练系统，使用管线并行计算模型来避免数据并行训练面临的慢速问题，并通过在多台机器上分别执行来减少通讯，使所有可用的 GPU 保持高生产效率。PipeDream 还使用循环排列的方式实现正向 / 反向传播以优化时间精度，相对于数据并行训练，其可将通信减少高达 95％，达到了 5 倍的训练加速比。

Jun, 2018