内存高效的自适应优化

Jan, 2019

Memory-Efficient Adaptive Optimization

Rohan Anil, Vineet Gupta, Tomer Koren, Yoram Singer

TL;DR本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Abstract

Adaptive gradient-based optimizers such as adagrad and adam are crucial for achieving state-of-the-art performance in machine translation and language modeling. However, these methods maintain second-order statis

adagrad adam optimization method per-parameter adaptivity large models

发现论文，激发创造

CAME：基于置信度的自适应内存高效优化

本研究提出了一种同时具有传统自适应方法快速收敛和内存高效方法的名为 CAME 的优化器，实验证明它在 NLP 任务中很稳定并具有更高的性能。

Jul, 2023

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

通过关键动量促进记忆增量 Adam 中的探索

提出了一种新的 Adam 的记忆增强版本，通过在训练过程中使用关键动量项的缓冲区，推动探索更平坦的最小值，从而提高了标准监督语言建模和图像分类任务的性能。

Jul, 2023

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

BAdam: 大型语言模型的内存高效全参数训练方法

该研究提出了 BAdam，一种利用 Adam 作为内部求解器的块坐标优化框架的优化器。BAdam 提供了一种内存高效的方法，用于对大型语言模型进行完全参数微调，通过链式规则属性减少了后向过程的运行时间。实验结果表明，BAdam 在比较 LoRA 和 LOMO 时表现出优越的收敛行为。此外，我们通过对 MT-bench 的下游性能评估来评估经过指导调整的模型，结果表明 BAdam 略优于 LoRA，并且在 LOMO 方面表现更好。最后，我们将 BAdam 与 Adam 在一个中等规模任务上进行了比较，即在 SuperGLUE 基准测试中对 RoBERTa-large 进行微调，结果表明 BAdam 能够缩小与 Adam 之间的性能差距。

Apr, 2024

内存高效的混合精度优化器

传统优化方法依赖于使用单精度浮点算术，在内存大小和计算性能方面具有成本。然而，混合精度优化技术利用单精度和半精度浮点算术来降低内存需求，同时保持模型准确性。我们在训练模型期间提供了一种算法，通过摆脱参数的浮点副本，实际上只保留半精度数，进一步减少内存使用。我们还通过在反向传播期间执行优化器步骤来探索去除梯度值的好处。在实践中，我们实现了高达 25% 的峰值内存使用降低和 15% 的更快训练速度，同时保持相同水平的准确性。

Sep, 2023

通过 Count-Sketches 压缩梯度优化器

通过引入线性草图的压缩辅助变量方法，可以在减小成本的情况下，实现与原算法相同的性能，这在大规模深度学习模型的训练中具有潜在的应用价值。

Feb, 2019

无损适应性：一种带有动量化、自适应、双平均随机梯度优化方法

引入了 MADGRAD 优化方法，其表现优异，不仅适用于视觉领域中的分类和图像转换任务，还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中，MADGRAD 的测试结果均优于 SGD 和 ADAM，并且在自适应方法通常表现差的问题上也表现出色。

Jan, 2021