自适应优化的未调节热身是否足够

AAAIOct, 2019

自适应优化的未调节热身是否足够

On the adequacy of untuned warmup for adaptive optimization

Jerry Ma, Denis Yarats

TL;DR本研究分析 Adam 的自适应学习率，提出温升调整学习率的必要性取决于更新项的大小，进而提供一些温升规则，并表明未调整的 Adam 与 RAdam 在典型实际环境中表现基本相同，建议从业者在 Adam 中坚持使用线性温升。

Abstract

adaptive optimization algorithms such as adam are widely used in deep learning. The stability of such algorithms is often improved with a warmup schedule for the →

adaptive optimization algorithms adam learning rate warmup schedules training stability

发现论文，激发创造

自适应学习率的方差及更多

文中探讨学习率预热方法在稳定训练、加速收敛和改善通用性方面的可靠性，发现自适应学习率在初始阶段有问题，建议使用预热作为方差缩减技术，并提出了一种新变量 RAdam 用于改善自适应学习率方差，实验结果表明其有效性和鲁棒性。

Aug, 2019

为什么要热身学习率？机制及改进

通过系统性实验证明，深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率，并将网络推向更好条件的损失函数区域，从而提高超参数调优的鲁棒性和最终性能，同时揭示了不同热身阶段的运行模式，根据初始化和参数化的不同，在一定情况下可以完全消除热身的需要，并建议 Adam 中方差的初始化方式以获得类似热身的好处。

Jun, 2024

何时、为何以及何倍？通过优化改进的自适应学习率调度

学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。

Oct, 2023

大批量训练自动学习率调度器

本文提出了一种有效的 LR 调试算法，其中包括自适应的预热和预定义的衰减，通过高斯过程平滑的在线检查方法可以有效地训练具有大批次大小的神经网络。

Jul, 2021

迈向无参数优化的稳定性

提出了一种无需手动调节参数的优化器 AdamG，通过使用 AdaGrad-Norm 算法中的黄金步长派生技术，自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。

May, 2024

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

MaxVA：通过最大化梯度观测方差快速调整步长

本文提出一种自适应学习率原则，通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效，在机器翻译，自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。

Jun, 2020

Adam 及其发展的收敛性研究

通过给 Adam 算法加上‘长期记忆’过去梯度的方法，不仅可以解决收敛问题，而且经常提高算法的实验性能。

Apr, 2019

Adafactor：自适应学习率与亚线性内存成本

该论文提出了一种基于行和列之和的移动平均数的方法，用于估计神经网络权重矩阵的参数，并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。

Apr, 2018

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。

May, 2018