Adam 在放宽假设下的随机优化收敛性

Feb, 2024

Adam 在放宽假设下的随机优化收敛性

On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions

Yusu Hong, Junhong Lin

TL;DR在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Abstract

The Adaptive Momentum Estimation (Adam) algorithm is highly effective in training various deep learning tasks. Despite this, there's limited theoretical understanding for Adam, especially when focusing on its vanilla form in non-convex smooth scenarios with potential unbounded gradient

adam algorithm vanilla adam non-convex smooth scenarios affine variance noise stationary point

发现论文，激发创造

Adam 算法在无界梯度和仿射方差噪声下的高概率收敛性

研究了自适应矩估计算法（Adam）在无约束非凸平滑随机优化中的收敛性，证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点，不需要任何有界梯度假设和问题相关的先验知识来调整超参数，同时还研究了一个简化版本的 Adam 算法以适应噪声水平。

Nov, 2023

Adam 算法在宽松条件下的收敛性

本文提供了自适应矩估计（Adam）算法对于广泛类别的优化目标的收敛性严谨证明，并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时，我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。

Apr, 2023

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

非凸目标的 Adam 算法收敛性：放宽超参数和非遍历情况

本论文通过探索超参数设置并应对非自回归收敛对实际应用的挑战，建立了 Adam 在非凸优化问题中的理论基础，包括精确定义自回归和非自回归收敛、对非自回归收敛的优势强调、可松弛选择超参数的弱充分条件确保自回归收敛、实现了 Adam 的近似确定自回归收敛速率，以及在 Polyak-Lojasiewicz (PL) 条件下函数值的非自回归收敛率。

Jul, 2023

广义平滑非凸优化中的 RMSProp 和 Adam 的收敛保证与仿射噪声方差

该论文在最宽松的坐标普适光滑性和仿射噪声方差假设下，为 RMSProp 和 Adam 在非凸优化中提供了首个收敛性分析，首先分析了 RMSProp，然后将分析推广到 Adam，表明它们的迭代复杂度与复杂性下界一致。

Apr, 2024

UAdam: 非凸随机优化的统一 Adam 型算法框架

我们介绍了一个统一的 Adam 型算法框架 (UAdam)，并在非凸随机设置下对其进行了收敛性分析，证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、AdaBound、AdaFom 和 Adan) 的次局部最优解附近，其中，区域大小随着 β 的增加而减小。此外，我们还发现只需将一阶动量因子靠近 1 即可使得分析成立，为 Adam 型算法的进一步分析和应用提供了理论保证。

May, 2023

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

重新审视在放宽假设下的 AdaGrad 收敛性

重新审视 AdaGrad 与动量的收敛性，研究非凸光滑优化问题中的噪声模型，分析概率收敛速度及广义平滑性

Feb, 2024