关于 AMSGrad 的收敛证明和新版本

Apr, 2019

On the Convergence Proof of AMSGrad and a New Version

Tran Thi Phuong, Le Trieu Phong

TL;DR该研究提出 Adam 和 AMSGrad 优化算法在处理超参数均衡性问题上收敛证明难以解决，提供了多种解决方法并实验证明了效果。

Abstract

The adaptive moment estimation algorithm adam (Kingma and Ba) is a popular optimizer in the training of deep neural networks. However, Reddi et al. have recently shown that the →

adam amsgrad convergence proof hyper-parameters deep neural networks

发现论文，激发创造

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

Adam 算法在宽松条件下的收敛性

本文提供了自适应矩估计（Adam）算法对于广泛类别的优化目标的收敛性严谨证明，并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时，我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。

Apr, 2023

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

非凸优化的自适应梯度方法收敛性研究

本文提供了关于一类自适应梯度方法（包括 AMSGrad，RMSProp 和 AdaGRad）在光滑非凸函数优化方面的收敛性分析，证明了期望下自适应梯度方法能够收敛到一阶稳定点，同时还证明了 AMSGrad，RMSProp 和 AdaGrad 的收敛速率，这些结论有助于更好地理解自适应梯度方法在优化非凸目标时的机制。

Aug, 2018

具有动态学习率上界的自适应梯度方法

本文提出了 AdaBound 和 AMSBound 两种新型变体算法，通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡，证明了它们的收敛性，并在各种任务和模型上进行了充分的实验，结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距，同时在训练初期保持更高的学习速度和取得显著的改进表现。

Feb, 2019

关于马尔科夫采样下 Adam 型强化学习算法的非渐近收敛性

本文第一次为 policy gradient 和 temporal difference learning 两个基本的强化学习算法 (并带有 AMSGrad 更新) 提供了收敛性分析，特别关注于马尔科夫采样，证明 PG-AMSGrad 和 TD-AMSGrad 在应用于非线性函数逼近时，采用不同步长都能收敛，本研究为分析 Adam 型强化学习算法提供了新技术。

Feb, 2020

UAdam: 非凸随机优化的统一 Adam 型算法框架

我们介绍了一个统一的 Adam 型算法框架 (UAdam)，并在非凸随机设置下对其进行了收敛性分析，证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、AdaBound、AdaFom 和 Adan) 的次局部最优解附近，其中，区域大小随着 β 的增加而减小。此外，我们还发现只需将一阶动量因子靠近 1 即可使得分析成立，为 Adam 型算法的进一步分析和应用提供了理论保证。

May, 2023

AdaX: 指数长期记忆的自适应梯度下降

本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了 AdaX 算法，与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛，实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam，且能够与随机梯度下降 (SGD) 保持一致。

Apr, 2020

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024