AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合
提出了一种名为 AdaBelief 的优化器,通过根据当前梯度方向的 “信任度” 调整步长,同时达到了收敛速度快、泛化性能好和训练稳定的三个目标,并在图像分类和语言建模等领域的实验中证明了其优越性。
Oct, 2020
此论文分析了 AdaSAM 在随机非凸环境下的收敛速度,证明了 AdaSAM 的收敛速度为 O(1/√(bT)),具有线性加速性质,随机梯度步骤与自适应学习率和扰动梯度分别分解分析,证明了自适应学习率具有有限的范围,为 SAM 和自适应学习率与动量加速提供了非平凡的收敛率,实验表明 AdaSAM 可以获得比 SGD,AMSGrad 和 SAM 优化器更好的性能。
Mar, 2023
通过引入重加权 AdaGrad 联合动量,AdaUSM 在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和 AdaGrad 的学习率下降速度,同时还能实现 SGD 动量和 Nesterov 学习率全方位的整合。
Aug, 2018
这篇论文介绍了一种新颖的随机梯度下降法 (SGD) 的改进方法,称为 AdaBatchGrad。该方法通过集成自适应步长和可调整批大小,提高了 SGD 的收敛性和稳定性。通过实验证明,引入自适应步长和批大小大大提高了正常 SGD 的性能,使得 AdaBatchGrad 方法在非精确测试中表现更好。
Feb, 2024
本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案(Stepsize Adaptation Scheme),以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验,通过该方案改进了它们的性能,在多种网络结构和数据集上进行了验证。与定常步长相比,增强优化器在不增加计算量的情况下,表现稳定优于定常步长优化器,甚至是最佳的优化器。
Feb, 2018
该论文提出了一种新的优化算法 Lookahead,针对目前普遍使用的 SGD 和 Adam 优化算法进行了改进,能够提高学习的稳定性和性能表现。
Jul, 2019
提出了一种无需手动调节参数的优化器 AdamG,通过使用 AdaGrad-Norm 算法中的黄金步长派生技术,自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。
May, 2024
MeZO 的模拟摄动随机逼近梯度估计导致严重震荡和时间开销,缺少动量正则化,而 ZO-AdaMU 通过在随机梯度近似中采用动量来解决这些问题,收敛性分析和实验表明这是改善 ZO-SGD 收敛稳定性和速率的更好方法。
Dec, 2023
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Dec, 2014