AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合

Sep, 2023

AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合

AdaPlus: Integrating Nesterov Momentum and Precise Stepsize Adjustment on AdamW Basis

Lei Guan

TL;DR该研究提出了一种称为 AdaPlus 的高效优化器，它在 AdamW 基础上集成了 Nesterov 动量和精确的步长调整，结合了 AdamW、Nadam 和 AdaBelief 的优点，并且不引入任何额外的超参数。经过广泛的实验证明了 AdaPlus 的有效性。

Abstract

This paper proposes an efficient optimizer called adaplus which integrates nesterov momentum and precise →

adaplus optimizer nesterov momentum stepsize adjustment hyper-parameters

发现论文，激发创造

AdaBelief 优化器：通过观察梯度的信念来调整步长

提出了一种名为 AdaBelief 的优化器，通过根据当前梯度方向的 “信任度” 调整步长，同时达到了收敛速度快、泛化性能好和训练稳定的三个目标，并在图像分类和语言建模等领域的实验中证明了其优越性。

Oct, 2020

AdaSAM: 自适应学习率和动量的锐度感知最小化，用于深度神经网络训练

此论文分析了 AdaSAM 在随机非凸环境下的收敛速度，证明了 AdaSAM 的收敛速度为 O（1/√（bT）），具有线性加速性质，随机梯度步骤与自适应学习率和扰动梯度分别分解分析，证明了自适应学习率具有有限的范围，为 SAM 和自适应学习率与动量加速提供了非平凡的收敛率，实验表明 AdaSAM 可以获得比 SGD，AMSGrad 和 SAM 优化器更好的性能。

Mar, 2023

统一动量的加权 AdaGrad 算法

通过引入重加权 AdaGrad 联合动量，AdaUSM 在解决难以收敛的随机问题时，其带权高斯平均符合实时梯度下降法 (SGD) 和 AdaGrad 的学习率下降速度，同时还能实现 SGD 动量和 Nesterov 学习率全方位的整合。

Aug, 2018

AdaBatchGrad: 组合自适应批量大小和自适应步长

这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法，称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小，提高了 SGD 的收敛性和稳定性。通过实验证明，引入自适应步长和批大小大大提高了正常 SGD 的性能，使得 AdaBatchGrad 方法在非精确测试中表现更好。

Feb, 2024

L4：深度学习实用的基于损失的步长自适应算法

本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案（Stepsize Adaptation Scheme），以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验，通过该方案改进了它们的性能，在多种网络结构和数据集上进行了验证。与定常步长相比，增强优化器在不增加计算量的情况下，表现稳定优于定常步长优化器，甚至是最佳的优化器。

Feb, 2018

预见优化器：向前 k 步，向后 1 步

该论文提出了一种新的优化算法 Lookahead，针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进，能够提高学习的稳定性和性能表现。

Jul, 2019

迈向无参数优化的稳定性

提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

May, 2024

ZO-AdaMU 优化器：零阶优化中动量和不确定性的适应扰动

MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销，缺少动量正则化，而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题，收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。

Dec, 2023

自适应惯性：解离自适应学习率和动量的影响

通过研究神经网络中的优化算法，提出了一个名为 “自适应惯性” 的新方法，能够更好地训练神经网络并提高泛化性能。

Jun, 2020

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014