自适应优化的未调节热身是否足够
文中探讨学习率预热方法在稳定训练、加速收敛和改善通用性方面的可靠性,发现自适应学习率在初始阶段有问题,建议使用预热作为方差缩减技术,并提出了一种新变量 RAdam 用于改善自适应学习率方差,实验结果表明其有效性和鲁棒性。
Aug, 2019
通过系统性实验证明,深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率,并将网络推向更好条件的损失函数区域,从而提高超参数调优的鲁棒性和最终性能,同时揭示了不同热身阶段的运行模式,根据初始化和参数化的不同,在一定情况下可以完全消除热身的需要,并建议 Adam 中方差的初始化方式以获得类似热身的好处。
Jun, 2024
提出了一种无需手动调节参数的优化器 AdamG,通过使用 AdaGrad-Norm 算法中的黄金步长派生技术,自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。
May, 2024
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本文提出一种自适应学习率原则,通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效,在机器翻译,自然语言理解和大批量预训练 BERT 方面展现出更理想的收敛行为。
Jun, 2020
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。
May, 2018