使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用

May, 2023

使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用

Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training

Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao...

TL;DR研究了大规模 DNN 训练中 GPU 内存问题，提出了一种名为 AdamA 的优化器累加方法，能同时减少激活内存和梯度内存的占用，与 Adam 相比性能不差，能在 PyTorch 和 DeepSpeed 等框架下使用。

Abstract

Running out of gpu memory has become a main bottleneck for large-scale DNN training. How to reduce the memory footprint during training has received intensive research attention. We find that previous gradient accumulation reduces activation memory but fails to be compatible with gradi

gpu memory dnn training adam accumulation memory reduction optimizer states

发现论文，激发创造

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

通过关键动量促进记忆增量 Adam 中的探索

提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

MicroAdam：精确的自适应优化方法，低空间开销和可证明收敛性

提出了一种名为 MICROADAM 的 Adam 优化器新变种，它专门最小化内存开销，同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差，并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证，并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级（BERT）和十亿级（LLaMA）模型上，与未压缩的 Adam 基准相比，提供了实用的竞争性收敛性，并具有更低的内存使用和类似的运行时间。

May, 2024

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

减少大型 Transformer 模型中的激活重新计算

本文通过降低激活记录的方法展示了如何显著加速大型 Transformer 模型的训练，并介绍了两种新颖且非常简单的技术：序列并行和选择性激活重算，这些技术几乎消除了重新计算激活的需要，同时减少了超过 90% 的执行时间开销和 5 倍的激活存储器减少。

May, 2022

Few-Bit Backward: 激活函数的量化梯度用于减少内存占用

本篇论文研究了神经网络训练中的内存占用问题，在点乘非线性函数导数的逼近上采用动态规划算法等方法进行量化，以显著减少内存占用和保证相同的收敛性能。

Feb, 2022

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

通过 2 位激活压缩训练减少训练内存占用的 ActNN

本文提出了一种名为 ActNN 的基于随机量化激活值实现的内存高效训练框架，该框架针对神经网络训练过程中内存不足的问题，利用分层、分维度、分样本的异质性进行多样化的量化，以达到减小内存占用和缩短训练时间的目的，Empirically 验证了 ActNN 的有效性，并表明其不会带来过大的精度损失。

Apr, 2021

深度网络中使用较低位宽累加器实现更廉价的推理

我们提出了一种简单的方法来训练和微调高端深度神经网络，首次允许使用更廉价的 12 位累加器，而不会出现显著的准确度降低。最后，我们证明，通过进一步降低累加器的精度，并使用细粒度梯度逼近可以提高深度神经网络的准确性。

Jan, 2024

通过 Count-Sketches 压缩梯度优化器

通过引入线性草图的压缩辅助变量方法，可以在减小成本的情况下，实现与原算法相同的性能，这在大规模深度学习模型的训练中具有潜在的应用价值。

Feb, 2019