AdamL：一种快速自适应梯度方法，融合损失函数

Dec, 2023

AdamL：一种快速自适应梯度方法，融合损失函数

AdamL: A fast adaptive gradient method incorporating loss function

Lu Xia, Stefano Massei

TL;DR通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Abstract

adaptive first-order optimizers are fundamental tools in deep learning, although they may suffer from poor generalization due to the nonun

adaptive first-order optimizers adaml generalization convergence deep learning

发现论文，激发创造

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

AdaX: 指数长期记忆的自适应梯度下降

本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值，为解决这一问题，我们提出了 AdaX 算法，与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息，实现自适应调节学习率，同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛，实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam，且能够与随机梯度下降 (SGD) 保持一致。

Apr, 2020

用二阶镜头看 Adam

将基于梯度的一阶方法和基于曲率的二阶方法相结合的 AdamQLR 优化器在回归和分类任务中进行评估，以实现与运行时竞争性的广义性能。

Oct, 2023

基于共轭梯度的 Adam 算法用于随机优化及其在深度学习中的应用

本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法，并展示其收敛分析。在文本分类和图像分类上的数值实验表明，该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。

Feb, 2020

UAdam: 非凸随机优化的统一 Adam 型算法框架

我们介绍了一个统一的 Adam 型算法框架 (UAdam)，并在非凸随机设置下对其进行了收敛性分析，证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、AdaBound、AdaFom 和 Adan) 的次局部最优解附近，其中，区域大小随着 β 的增加而减小。此外，我们还发现只需将一阶动量因子靠近 1 即可使得分析成立，为 Adam 型算法的进一步分析和应用提供了理论保证。

May, 2023

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019