Adam 系列算法的新收敛分析

Dec, 2021

A Novel Convergence Analysis for Algorithms of the Adam Family

Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang

TL;DR本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Abstract

Since its invention in 2014, the adam optimizer has received tremendous attention. On one hand, it has been widely used in deep learning and many variants have been proposed, while on the other hand their theoret

adam optimizer convergence analysis deep learning stochastic gradient estimators non-convex optimization

发现论文，激发创造

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

Adam 算法在宽松条件下的收敛性

本文提供了自适应矩估计（Adam）算法对于广泛类别的优化目标的收敛性严谨证明，并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时，我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。

Apr, 2023

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

UAdam: 非凸随机优化的统一 Adam 型算法框架

我们介绍了一个统一的 Adam 型算法框架 (UAdam)，并在非凸随机设置下对其进行了收敛性分析，证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、AdaBound、AdaFom 和 Adan) 的次局部最优解附近，其中，区域大小随着 β 的增加而减小。此外，我们还发现只需将一阶动量因子靠近 1 即可使得分析成立，为 Adam 型算法的进一步分析和应用提供了理论保证。

May, 2023

关于 AMSGrad 的收敛证明和新版本

该研究提出 Adam 和 AMSGrad 优化算法在处理超参数均衡性问题上收敛证明难以解决，提供了多种解决方法并实验证明了效果。

Apr, 2019

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

Adam 算法在无界梯度和仿射方差噪声下的高概率收敛性

研究了自适应矩估计算法（Adam）在无约束非凸平滑随机优化中的收敛性，证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点，不需要任何有界梯度假设和问题相关的先验知识来调整超参数，同时还研究了一个简化版本的 Adam 算法以适应噪声水平。

Nov, 2023

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

具收敛性保证的非光滑优化的 Adam 家族方法

研究了 Adam 族方法在非光滑优化尤其是在训练非光滑神经网络方面的收敛性，提出了一个采用双时间尺度更新方案的新颖框架并证明了其在温和假设下的收敛性，介绍了一些植入了梯度剪切技术的随机次梯度方法并通过实验证明其高效性和健壮性。

May, 2023

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014