ADAM 算法固定步长的发散:一个(非常)简单的例子
本文介绍了 Adam 算法的一个连续时间版本,并证明了在稳定性条件下,该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法,并分析了算法的波动性,采用条件中心极限定理证明算法有收敛性。
Oct, 2018
我们在非凸设置中对 ADAM 的常数步长版本进行理论分析,证明了步长达到几乎肯定的渐近收敛性所需的充分条件,并提供了在处理平滑的非凸函数时确定性 ADAM 达到近似临界性的运行时界限。
Sep, 2023
本文提供了自适应矩估计(Adam)算法对于广泛类别的优化目标的收敛性严谨证明,并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时,我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。
Apr, 2023
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本研究通过对 Adam 优化器家族进行分析,提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法,并证明了使用随机梯度估计器的方差减少结果。
Dec, 2021
本文研究一类自适应梯度基于动量的算法,这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型,研究了一些充分条件,保证了这些方法在解决非凸优化问题时的收敛性,为训练深度神经网络提供了理论支持。另外,文中提出了一类(确定性)增量自适应梯度算法,收敛速度与 Adam 类型算法相同,可以应用于更广泛的机器学习和优化问题。
Aug, 2018
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Dec, 2014
通过考虑损失函数信息以获得更好的泛化结果,我们提出了一种 AdamL 优化算法,该算法是 Adam 优化器的一种新变体。我们提供了足够的条件,以及 Polyak-Lojasiewicz 不等式,确保了 AdamL 的线性收敛性。与此分析的副产品,我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明,与 Adam、EAdam 和 AdaBelief 相比,AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时,如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络,这些卓越的性能得到了证实。最后,在普通卷积神经网络的情况下,AdamL 优于其他 Adam 的变体,并且在训练的后期阶段不需要手动调整学习率。
Dec, 2023
研究了自适应矩估计算法(Adam)在无约束非凸平滑随机优化中的收敛性,证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点,不需要任何有界梯度假设和问题相关的先验知识来调整超参数,同时还研究了一个简化版本的 Adam 算法以适应噪声水平。
Nov, 2023