减少大型 Transformer 模型中的激活重新计算

May, 2022

减少大型 Transformer 模型中的激活重新计算

Reducing Activation Recomputation in Large Transformer Models

Vijay Korthikanti, Jared Casper, Sangkug Lym, Lawrence McAfee, Michael Andersch...

TL;DR本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练，并介绍了两种新颖且非常简单的技术：序列并行和选择性激活重算，这些技术几乎消除了重新计算激活的需要，同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。

Abstract

Training large transformer models is one of the most important computational challenges of modern AI. In this paper, we show how to significantly accelerate training of large transformer models by reducing

transformer models activation recomputation sequence parallelism selective activation recomputation memory consumption

发现论文，激发创造

通过重叠激活重计算优化大型模型训练

设计了一个新的重计算框架 Lynx，通过将重计算与训练管道中发生的通信重叠来减少开销，其中包括优化调度算法（OPT）和基于启发式的调度算法（HEU），OPT 实现了全局最优但搜索时间较长，HEU 通过应用相同调度策略于所有相同结构达到局部最优并将搜索时间减少了 99%，使用 1.3B-20B 参数的 GPT 模型的全面评估结果显示，OPT 和 HEU 在性能上都优于现有的重计算方法（例如 Megatron-LM 和 Checkmake）1.02-1.53 倍，HEU 的平均搜索时间为 0.16 秒，与 OPT 具有类似的性能。

Jun, 2024

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

Colossal-Auto：大规模模型并行化和激活检查点的统一自动化

提出一种可同时优化分布式执行和渐进式检查点规划的系统，以支持在给定硬件上最小代码更改的情况下对模型进行并行训练，并提供易于使用的符号分析器生成任何 PyTorch 模型的内存和计算统计信息。

Feb, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

无训练无收益：重拾用于基于 Transformer 的语言模型的高效训练算法

本文探讨了三种算法类型 (动态架构、批量选择和优化器) 在训练 Transformer-based 语言模型的效率问题，并发现这些算法并不能比传统训练方法更快的提升训练、验证和下游任务的表现。

Jul, 2023

大规模分布式模型训练的高效并行化布局

通过对大型语言模型的多种训练配置进行全面的消融研究，我们总结出几个关键建议，以实现最高效的训练，例如，我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性，并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果，尤其是在训练 13B 模型时，模型 FLOPs 利用率达到了 70.5%。

Nov, 2023

大内存系统上的记忆化加速 Transformer

本研究介绍一种基于缓存优化技术的变压器模型加速方案，通过建立基于大内存系统的注意力数据库来加速注意力计算，从而实现了平均 21％的性能提升（最高 68％），并且在推理准确性上有可忽略的损失。

Jan, 2023

大型模型是简明学习者：训练转换器中的激活稀疏性

通过实验证明机器学习模型的机制使得 transformer 架构的激活图稀疏化，进而提出一种可以显著降低计算量并提高效率的方式。

Oct, 2022

通过 2 位激活压缩训练减少训练内存占用的 ActNN

本文提出了一种名为 ActNN 的基于随机量化激活值实现的内存高效训练框架，该框架针对神经网络训练过程中内存不足的问题，利用分层、分维度、分样本的异质性进行多样化的量化，以达到减小内存占用和缩短训练时间的目的，Empirically 验证了 ActNN 的有效性，并表明其不会带来过大的精度损失。

Apr, 2021