Adam 算法在宽松条件下的收敛性

Apr, 2023

Convergence of Adam Under Relaxed Assumptions

Haochuan Li, Ali Jadbabaie, Alexander Rakhlin

TL;DR本文提供了自适应矩估计（Adam）算法对于广泛类别的优化目标的收敛性严谨证明，并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时，我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。

Abstract

In this paper, we provide a rigorous proof of convergence of the Adaptive Moment Estimate (Adam) algorithm for a wide class of optimization objectives. Despite the popularity and efficiency of the adam algorithm

adam algorithm optimization neural networks convergence proofs gradient complexity

发现论文，激发创造

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

Adam 算法在无界梯度和仿射方差噪声下的高概率收敛性

研究了自适应矩估计算法（Adam）在无约束非凸平滑随机优化中的收敛性，证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点，不需要任何有界梯度假设和问题相关的先验知识来调整超参数，同时还研究了一个简化版本的 Adam 算法以适应噪声水平。

Nov, 2023

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

广义平滑非凸优化中的 RMSProp 和 Adam 的收敛保证与仿射噪声方差

该论文在最宽松的坐标普适光滑性和仿射噪声方差假设下，为 RMSProp 和 Adam 在非凸优化中提供了首个收敛性分析，首先分析了 RMSProp，然后将分析推广到 Adam，表明它们的迭代复杂度与复杂性下界一致。

Apr, 2024

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

非凸目标的 Adam 算法收敛性：放宽超参数和非遍历情况

本论文通过探索超参数设置并应对非自回归收敛对实际应用的挑战，建立了 Adam 在非凸优化问题中的理论基础，包括精确定义自回归和非自回归收敛、对非自回归收敛的优势强调、可松弛选择超参数的弱充分条件确保自回归收敛、实现了 Adam 的近似确定自回归收敛速率，以及在 Polyak-Lojasiewicz (PL) 条件下函数值的非自回归收敛率。

Jul, 2023

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

关于 AMSGrad 的收敛证明和新版本

该研究提出 Adam 和 AMSGrad 优化算法在处理超参数均衡性问题上收敛证明难以解决，提供了多种解决方法并实验证明了效果。

Apr, 2019

缩小 Adam 迭代复杂度上界与下界之间的差距

本文通过导出 Adam 的新收敛保证来推翻现有 Adam 收敛的下界，并且证明当使用适当的超参数时，Adam 满足一阶优化器的下界和上界，为 Adam 的收敛性建立了严密的上界。

Oct, 2023

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014