ADAM 算法固定步长的发散：一个（非常）简单的例子

Aug, 2023

ADAM 算法固定步长的发散：一个（非常）简单的例子

Divergence of the ADAM algorithm with fixed-stepsize: a (very) simple example

Ph. L. Toint

TL;DR在没有梯度噪声的情况下，构建了一个具有 Lipschitz 连续梯度的非常简单的一维函数，当应用 ADAM 算法以最小化该函数时，始于原点时会发散，无论选择的方法参数如何。

Abstract

A very simple unidimensional function with lipschitz continuous gradient is constructed such that the adam algorithm with →

unidimensional function lipschitz continuous gradient adam algorithm constant stepsize divergence

发现论文，激发创造

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

ADAM 在非凸背景下的常数步长收敛性：一个简单的证明

我们在非凸设置中对 ADAM 的常数步长版本进行理论分析，证明了步长达到几乎肯定的渐近收敛性所需的充分条件，并提供了在处理平滑的非凸函数时确定性 ADAM 达到近似临界性的运行时界限。

Sep, 2023

Adam 算法在宽松条件下的收敛性

本文提供了自适应矩估计（Adam）算法对于广泛类别的优化目标的收敛性严谨证明，并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时，我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。

Apr, 2023

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

Adam 算法在无界梯度和仿射方差噪声下的高概率收敛性

研究了自适应矩估计算法（Adam）在无约束非凸平滑随机优化中的收敛性，证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点，不需要任何有界梯度假设和问题相关的先验知识来调整超参数，同时还研究了一个简化版本的 Adam 算法以适应噪声水平。

Nov, 2023