MicroAdam：精确的自适应优化方法，低空间开销和可证明收敛性

May, 2024

MicroAdam：精确的自适应优化方法，低空间开销和可证明收敛性

MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence

Ionut-Vlad Modoranu, Mher Safaryan, Grigory Malinovsky, Eldar Kurtic, Thomas Robert...

TL;DR提出了一种名为 MICROADAM 的 Adam 优化器新变种，它专门最小化内存开销，同时保持理论收敛性保证。通过在优化器状态之前压缩梯度信息来显著减少内存占用。使用分布式优化中的经典错误反馈机制来控制压缩误差，并实现实际的内存收益。证明了这种方法具有与 AMSGrad 相媲美的理论收敛性保证，并提供良好的实际性能。在 GPU 上有效实现的 MICROADAM 在百万级（BERT）和十亿级（LLaMA）模型上，与未压缩的 Adam 基准相比，提供了实用的竞争性收敛性，并具有更低的内存使用和类似的运行时间。

Abstract

We propose a new variant of the adam optimizer [Kingma and Ba, 2014] called microadam that specifically minimizes memory overheads, while

adam optimizer microadam memory overheads compression error theoretical convergence guarantees

发现论文，激发创造

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

BAdam: 大型语言模型的内存高效全参数训练方法

该研究提出了 BAdam，一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法，用于对大型语言模型进行完全参数微调，通过链式规则属性减少了后向过程的运行时间。实验结果表明，BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外，我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型，结果表明 BAdam 略优于 LoRA，并且在 LOMO 方面表现更好。最后，我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较，即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调，结果表明 BAdam 能够缩小与 Adam 之间的性能差距。

Apr, 2024

MADA: 元适应优化器通过超梯度下降

本研究提出了 Meta-Adaptive Optimizers（MADA），一个统一的优化器框架，它能够泛化多种已知的优化器，并在训练过程中动态学习最合适的优化器。数值结果表明，MADA 对亚优化的超参数具有鲁棒性，并且即使在调优超参数的情况下，它通常优于 Adam、Lion 和 Adan。同时，我们还提出了 AVGrad，它是 AMSGrad 的一种变体，在 MADA 中表现更好。最后，我们提供了收敛性分析，显示优化器的插值（特别是 AVGrad 和 Adam）可以改善它们的误差界限（在常数上），暗示了元优化器的优势。

Jan, 2024

通过关键动量促进记忆增量 Adam 中的探索

提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

1-bit Adam：高效通讯的 Adam 收敛速度大规模训练

本文提出使用 1 位 Adam 方法和误差补偿压缩技术来提高通信效率和扩展性，实验结果表明，该方法在 BERT 和 SQuAD 任务上能够显著加速训练，同时保证了收敛速度和压缩率。

Feb, 2021

使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用

研究了大规模 DNN 训练中 GPU 内存问题，提出了一种名为 AdamA 的优化器累加方法，能同时减少激活内存和梯度内存的占用，与 Adam 相比性能不差，能在 PyTorch 和 DeepSpeed 等框架下使用。

May, 2023

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

通过 Count-Sketches 压缩梯度优化器

通过引入线性草图的压缩辅助变量方法，可以在减小成本的情况下，实现与原算法相同的性能，这在大规模深度学习模型的训练中具有潜在的应用价值。

Feb, 2019