AdaBelief 优化器：通过观察梯度的信念来调整步长

Oct, 2020

AdaBelief 优化器：通过观察梯度的信念来调整步长

AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

Juntang Zhuang, Tommy Tang, Yifan Ding, Sekhar Tatikonda, Nicha Dvornek...

TL;DR提出了一种名为 AdaBelief 的优化器，通过根据当前梯度方向的 “信任度” 调整步长，同时达到了收敛速度快、泛化性能好和训练稳定的三个目标，并在图像分类和语言建模等领域的实验中证明了其优越性。

Abstract

Most popular optimizers for deep learning can be broadly categorized as adaptive methods (e.g. Adam) and accelerated schemes (e.g. stochastic gradient descent (SGD) with momentum). For many models such as convolu

deep learning optimizers adabelief convergence stability

发现论文，激发创造

贝叶斯过滤统一自适应和非自适应神经网络优化方法

通过贝叶斯滤波的方法，我们提出了一种新的神经网络优化器 AdaBayes，能够自适应地在 SGD 和 Adam 之间切换，并且能够恢复出 AdamW 的效果，同时具有和 SGD 相当的泛化性能。

Jul, 2018

同质神经网络适应性优化算法的隐含偏差

研究表明采用指数移动平均策略的自适应算法如 Adam 和 RMSProp 可以最大化神经网络的边界，而直接在条件器中加历史平方梯度的 AdaGrad 却不行。

Dec, 2020

AdaScale SGD：分布式训练的用户友好型算法

AdaScale SGD 是一种可靠地适应大批量训练学习率的算法，通过不断调整梯度方差，可以实现在宽范围的批量大小下加速训练。在机器翻译，图像分类，目标检测和语音识别任务中，它可以处理大批量训练，而不会降低模型质量，因为 AdaScale 的收敛性边界可以保持最终目标值，即使批量大小增加，迭代次数减少。这个算法引入了可忽略的计算开销和没有新的超参数，因此是实现大规模训练的有吸引力的选择。

Jul, 2020

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

L4：深度学习实用的基于损失的步长自适应算法

本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案（Stepsize Adaptation Scheme），以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验，通过该方案改进了它们的性能，在多种网络结构和数据集上进行了验证。与定常步长相比，增强优化器在不增加计算量的情况下，表现稳定优于定常步长优化器，甚至是最佳的优化器。

Feb, 2018

AdamL：一种快速自适应梯度方法，融合损失函数

通过考虑损失函数信息以获得更好的泛化结果，我们提出了一种 AdamL 优化算法，该算法是 Adam 优化器的一种新变体。我们提供了足够的条件，以及 Polyak-Lojasiewicz 不等式，确保了 AdamL 的线性收敛性。与此分析的副产品，我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明，与 Adam、EAdam 和 AdaBelief 相比，AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时，如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络，这些卓越的性能得到了证实。最后，在普通卷积神经网络的情况下，AdamL 优于其他 Adam 的变体，并且在训练的后期阶段不需要手动调整学习率。

Dec, 2023

AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合

该研究提出了一种称为 AdaPlus 的高效优化器，它在 AdamW 基础上集成了 Nesterov 动量和精确的步长调整，结合了 AdamW、Nadam 和 AdaBelief 的优点，并且不引入任何额外的超参数。经过广泛的实验证明了 AdaPlus 的有效性。

Sep, 2023

AdAdaGrad：自适应梯度方法的自适应批次大小方案

通过使用自适应批次大小策略，引入了 AdAdaGrad 和 AdAdaGradNorm，在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。

Feb, 2024

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

AdaBatchGrad: 组合自适应批量大小和自适应步长

这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法，称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小，提高了 SGD 的收敛性和稳定性。通过实验证明，引入自适应步长和批大小大大提高了正常 SGD 的性能，使得 AdaBatchGrad 方法在非精确测试中表现更好。

Feb, 2024