Adafactor：自适应学习率与亚线性内存成本

Apr, 2018

Adafactor：自适应学习率与亚线性内存成本

Adafactor: Adaptive Learning Rates with Sublinear Memory Cost

Noam Shazeer, Mitchell Stern

TL;DR该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Abstract

In several recently proposed stochastic optimization methods (e.g. RMSProp, Adam, Adadelta), parameter updates are scaled by the inverse square roots of exponential moving averages of squared past gradients. Maintaining these per-parameter second-moment estimators requires memory equal

stochastic optimization neural network weight matrices update clipping parameter scaling

发现论文，激发创造

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

内存高效的自适应优化

本文介绍了一种效率高、灵活性强、内存占用少的自适应优化方法，保留了每个参数的自适应性优势，同时允许使用更大的模型和批量大小，具有很好的收敛性和训练效果。

Jan, 2019

MaxVA：通过最大化梯度观测方差快速调整步长

本文提出一种自适应学习率原则，通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效，在机器翻译，自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。

Jun, 2020

一种自适应瞬时边界方法用于随机学习

本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题，实现深度神经网络的稳定而高效训练，对于复杂网络，如 DenseNet 和 Transformer，与 Adam 方法相比，AdaMod 方法带来了显著的改进。

Oct, 2019

Adapprox：通过随机低秩矩阵在 Adam 优化中进行自适应逼近

Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法，在 GPT-2 训练和下游任务中，Adapprox 相比 AdamW 能够实现 34.5％到 49.9％和 33.8％到 49.9％的内存节省，并且它通过提高收敛速度和改进下游任务性能相对于其他方法。

Mar, 2024

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018

AdaLomo：自适应学习率的低内存优化

大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。

Oct, 2023

使用尺度不变架构强化神经网络训练

本文提出了通过修改网络结构，使其缩放不变，并使用 SGD 和权重衰减进行训练的通用方法，并证明了此方法不仅可以实现稳健的训练，还可以节省内存。作者还设计了一种名为 SIBERT 的缩放不变的 BERT 版本，其性能可与使用 Adam 等自适应方法训练的 BERT 相媲美。

Feb, 2022

Adam-mini: 更少的学习率，取得更多的收益

Adam-mini 是一个优化器，通过减少内存占用量（相较于 AdamW 减少了 45％至 50％）来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用，使用预定义参数块中 $v$ 的平均值作为该块的学习率。通过在各种语言模型上进行实证验证，我们发现 Adam-mini 在预训练、监督微调和增强学习等方面显示出与 AdamW 相当或更好的性能，同时还减少了通信开销，并提高了吞吐量。

Jun, 2024

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020