PipeOptim: 保证具有依赖优化器的权重预测的有效 1F1B 调度
通过重复构建块的方式,将流水线调度分解为生命周期的概念,并发现现有调度方案在内存利用方面存在问题。为了解决这个问题,引入了一系列具有可控激活内存的高效构建块,可以在不影响效率的情况下将峰值激活内存减少到 1F1B 的 1/2 甚至 1/3,同时几乎没有流水线气泡,以及在吞吐量方面表现优于 1F1B。在实践场景中对混合并行化超参数进行网格搜索时,相较于 1F1B 基准,我们提出的方法在大型语言模型上实现了 16% 的吞吐量提升。
May, 2024
本文介绍了一种支持高效内存管道并行处理的系统 ——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上,并考虑加速器的内存容量和互连拓扑等硬件限制,可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍,并保持模型精度相似。
Jun, 2020
引入 Breadth-First Pipeline Parallelism,这是一种结合了 pipeline 和 data parallelism 的新型训练策略,通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性,以及完全分片的数据并行性,降低了训练时间、成本和内存使用。实验结果显示训练速度提高了 53%。
Nov, 2022
本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法,它有效地减轻了由 Pipelined Backpropagation 的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与 SGD 相比,它能够在 CIFAR-10 和 ImageNet 上为多个网络的训练匹配准确度。
Mar, 2020
本研究提出了 PipeTransformer 来提高 Transformer 模型的多节点分布式训练效率,该方法通过自动化管线处理和数据并行来动态调整管线和并行策略,从而实现层的冻结和资源分配,结果表明 PipeTransformer 相较于现有算法可以提高 2.4 倍速度。
Feb, 2021
该论文探讨了管道并行(Pipeline parallelism)训练神经网络的各种技术,提出了一种简单而健壮的训练方法,名为 PipeMare,可以在保持与同步训练相当的模型质量的情况下提高硬件利用率,允许高效使用细粒度的并行计算。在 ResNet 和 Transformer 网络上进行测试,异步训练允许 PipeMare 使用更少的内存或更高的管道利用率。
Oct, 2019
GPipe 是一种管道并行库,它提供了一种高效进行模型并行化的方式,可以将不同子层序列分别放在不同的加速器上,因此可以有效地将各种不同的网络扩展到巨大的规模,并且能够实现快速的线性加速,通过对两个不同任务的训练,证明了 GPipe 的优势。
Nov, 2018
通过将反向传播步骤分为两个独立阶段,本文引入 2 阶段反向传播(2BP),以减少空闲计算时间,并在各种模型架构和管道调度上测试 2BP,从而在所有情况下实现吞吐量的增加。使用 2BP,相较于传统方法,在训练一个类似 LLaMa 的 Transformer 时,能够实现吞吐量的 1.70 倍增长,模型参数为 70 亿个,跨 4 个 GPU。
May, 2024