基于共轭梯度的 Adam 算法用于随机优化及其在深度学习中的应用

Feb, 2020

基于共轭梯度的 Adam 算法用于随机优化及其在深度学习中的应用

Conjugate-gradient-based Adam for stochastic optimization and its application to deep learning

Yu Kobayashi, Hideaki Iiduka

TL;DR本文提出了一个混合 Adam 和非线性共轭梯度方法的共轭梯度 Adam 算法，并展示其收敛分析。在文本分类和图像分类上的数值实验表明，该算法可以在比现有的自适应随机优化算法更少的时代数内训练深度神经网络模型。

Abstract

This paper proposes a conjugate-gradient-based adam algorithm blending Adam with nonlinear conjugate gradient methods and shows its convergence a

conjugate gradient adam algorithm deep neural network optimization convergence analysis

发现论文，激发创造

基于共轭梯度类自适应矩估计优化算法的深度学习

通过将共轭普通梯度方法与 Adam 相结合，提出了一种名为 CG-like-Adam 的用于深度学习的新型优化算法，以加速训练并提升深度神经网络的性能。在该算法中，用共轭普通梯度方法替代了 Adam 的一阶和二阶矩估计，数值实验证明了该算法在 CIFAR10/100 数据集上的优越性。

Apr, 2024

StochGradAdam：利用随机梯度采样加速神经网络训练

该研究论文介绍了深度学习优化领域中的 StochGradAdam 优化器，它是 Adam 算法的一种新变体，核心是梯度采样技术。该方法不仅确保了稳定的收敛性，还充分利用了选择性梯度考虑的优势，通过减轻嘈杂或异常数据的影响以及增强损失函数空间的探索，提高了可靠性收敛。在图像分类和分割任务中，StochGradAdam 优化器表现出优越的性能，相较于传统的 Adam 优化器。通过在每次迭代中精确采样一部分梯度，该优化器被优化用于管理复杂模型。该论文全面探讨了 StochGradAdam 的方法论，从数学基础到偏差校正策略，为深度学习训练技术的有望进展铺平了道路。

Oct, 2023

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014

关于一类 Adam 型非凸优化算法的收敛性

本文研究一类自适应梯度基于动量的算法，这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型，研究了一些充分条件，保证了这些方法在解决非凸优化问题时的收敛性，为训练深度神经网络提供了理论支持。另外，文中提出了一类（确定性）增量自适应梯度算法，收敛速度与 Adam 类型算法相同，可以应用于更广泛的机器学习和优化问题。

Aug, 2018

训练深度神经网络的自适应学习率优化算法的适当学习率

本文针对深度学习中的非凸随机优化问题，提出了适当的学习率，并使用自适应学习率优化算法（如 Adam 和 AMSGrad），可以近似问题的固定点，同时保证这些算法可以近似凸随机优化问题的全局最小值，在文本和图像分类的实验中，采用不同的学习率优化算法，结果表明使用恒定学习率性能比衰减学习率的性能更佳。

Feb, 2020

非凸随机优化中 ADAM 算法的收敛性和动态行为

本文介绍了 Adam 算法的一个连续时间版本，并证明了在稳定性条件下，该算法能够收敛于目标函数的临界点。作者还介绍了一种新的步长递减 Adam 算法，并分析了算法的波动性，采用条件中心极限定理证明算法有收敛性。

Oct, 2018

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019