通过重叠激活重计算优化大型模型训练

Jun, 2024

通过重叠激活重计算优化大型模型训练

Optimizing Large Model Training through Overlapped Activation Recomputation

Ping Chen, Wenjie Zhang, Shuibing He, Yingjie Gu, Zhuwei Peng...

TL;DR设计了一个新的重计算框架 Lynx，通过将重计算与训练管道中发生的通信重叠来减少开销，其中包括优化调度算法（OPT）和基于启发式的调度算法（HEU），OPT 实现了全局最优但搜索时间较长，HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%，使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示，OPT 和 HEU 在性能上都优于现有的重计算方法（例如 Megatron-LM 和 Checkmake）1.02-1.53 倍，HEU 的平均搜索时间为 0.16 秒，与 OPT 具有类似的性能。

Abstract

large model training has been using recomputation to alleviate the memory pressure and pipelining to exploit the parallelism of data, tens

large model training recomputation pipelining scheduling algorithm overhead reduction

发现论文，激发创造

减少大型 Transformer 模型中的激活重新计算

本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练，并介绍了两种新颖且非常简单的技术：序列并行和选择性激活重算，这些技术几乎消除了重新计算激活的需要，同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。

May, 2022

Colossal-Auto：大规模模型并行化和激活检查点的统一自动化

提出一种可同时优化分布式执行和渐进式检查点规划的系统，以支持在给定硬件上最小代码更改的情况下对模型进行并行训练，并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。

Feb, 2023

Lancet: 通过整图计算 - 通信重叠加速混合专家训练

我们的研究扩展了 Mixture-of-Expert (MoE) 技术在训练过程中的重叠性挑战，并通过特定的分区和流水线技术实现了非 MoE 计算与 all-to-all 通信的重叠。我们的 Lancet 系统在自动增强 MoE 模型训练时，显著减少了非重叠性通信所需的时间，最高达到 77%。此外，与同类解决方案相比，速度提升达到了显著的 1.3 倍。

Apr, 2024

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

无训练无收益：重拾用于基于 Transformer 的语言模型的高效训练算法

本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题，并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。

Jul, 2023

高效大规模语言模型训练的记忆和通讯成本重新思考

大尺寸建模训练，延迟均衡化，部分冗余优化器，分层重叠环，训练效率

Oct, 2023

加速训练 Transformer 模型的多层框架

我们提出了一个多层框架，通过合并和解散以及插值操作来加速训练，从而降低了 BERT/GPT-Base 模型的计算成本约 20%，以及 BERT-Large 模型的计算成本高达 51.6%，同时保持了性能。

Apr, 2024

高召回率大约前 k 个预估用于高效 LLM 推理

使用大型语言模型生成的自回归解码在加速器（GPU/TPU）上通常受限于内存，而通过适当训练模型以在前馈层的高 $k$ 部分上操作，从而减少模型参数传输和减少延迟的潜力受到数据依赖性和矩阵运算的限制。为解决这些问题，我们引入了 HiRE（高召回率的近似 top-k 估计），它包括两个创新组件：一种压缩方案以低成本预测具有高召回率的前 $k$ 行 / 列，并进行预测子集的全算；DA-TOP-$k$：一种高效的多设备近似 top-$k$ 运算符。在 10 亿参数模型上，运用 HiRE 到 softmax 和前馈层，几乎达到了预训练和下游准确性匹配，并在单个 TPUv5e 设备上加速了推理延迟 1.47 倍。

Feb, 2024

通过低维度学习动力学高效压缩超参数化深度模型

通过研究过度参数化的深度网络的学习动力学，我们揭示了各种体系结构的权重矩阵展现出低维结构，我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络，实验证明这种压缩技术能够加速训练过程超过两倍，而不牺牲模型质量。

Nov, 2023

通过平衡内存负载优化改善自动并行训练

本文介绍了一种系统框架 Galvatron-BMW，集成了多种普遍的并行性维度，并自动识别最高效的混合并行性策略，该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。

Jul, 2023