AdaX: 指数长期记忆的自适应梯度下降

Apr, 2020

AdaX: 指数长期记忆的自适应梯度下降

AdaX: Adaptive Gradient Descent with Exponential Long Term Memory

Wenjie Li, Zhaoyang Zhang, Xinjiang Wang, Ping Luo

TL;DR本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了 AdaX 算法，与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛，实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam，且能够与随机梯度下降 (SGD) 保持一致。

Abstract

Although adaptive optimization algorithms such as adam show fast convergence in many machine learning tasks, this paper identifies a probl

adaptive optimization algorithms adam adax gradient information convergence

发现论文，激发创造

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

一种自适应瞬时边界方法用于随机学习

本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题，实现深度神经网络的稳定而高效训练，对于复杂网络，如 DenseNet 和 Transformer，与 Adam 方法相比，AdaMod 方法带来了显著的改进。

Oct, 2019

关于 AMSGrad 的收敛证明和新版本

该研究提出 Adam 和 AMSGrad 优化算法在处理超参数均衡性问题上收敛证明难以解决，提供了多种解决方法并实验证明了效果。

Apr, 2019

具有动态学习率上界的自适应梯度方法

本文提出了 AdaBound 和 AMSBound 两种新型变体算法，通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡，证明了它们的收敛性，并在各种任务和模型上进行了充分的实验，结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距，同时在训练初期保持更高的学习速度和取得显著的改进表现。

Feb, 2019

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

加速额外梯度下降：一种新的加速一阶方法

提出了一种新的加速一阶方法 (AXGD)，采用了预测 - 校正方法，解决了凸 - 凹鞍点问题，通过隐式欧拉离散化构建了加速连续时间动态模型，并通过原始 - 对偶视角进行了分析，对于其他类别的目标也能够达到最佳收敛速度。

Jun, 2017