将自适应梯度方法从学习率中解开

Feb, 2020

将自适应梯度方法从学习率中解开

Disentangling Adaptive Gradient Methods from Learning Rates

Naman Agarwal, Rohan Anil, Elad Hazan, Tomer Koren, Cyril Zhang

TL;DR本文研究了深度学习优化算法中的多个混淆因素，特别是探索了自适应梯度方法与学习率调度之间的相互作用，提出了一种 “嫁接” 实验，并给出了对自适应梯度方法泛化能力的实证和理论回顾。

Abstract

We investigate several confounding factors in the evaluation of optimization algorithms for deep learning. Primarily, we take a deeper look at how adaptive gradient methods interact with the learning rate schedule

optimization algorithms deep learning adaptive gradient methods learning rate schedule neural network training

发现论文，激发创造

通过参数缩放解释自适应梯度方法对无学习率优化的解读

我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法，并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性，并证明在各种情况下，其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性，增强了自适应梯度方法的训练效果。

Jan, 2024

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

何时、为何以及何倍？通过优化改进的自适应学习率调度

学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。

Oct, 2023

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

可微分的自适应学习率

本研究提出一种新的学习率自适应算法来解决 Hypergradient 优化算法在处理大规模数据集和验证集上的表现问题，实验证明该算法在速度和精度上都能超越现有的优化算法。

Oct, 2022

机器学习中自适应梯度方法的边际价值

本文研究了使用自适应优化方法训练深度神经网络的表现，提出了一些简单超参数问题，发现自适应方法得到的结果往往比梯度下降方法差，甚至可能导致结果更糟糕，建议实践者重新考虑使用自适应方法训练神经网络。

May, 2017

WNGrad: 梯度下降中的学习率学习

我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则，该方法可实现基于梯度观察的学习率逐步降低，最终达到高效收敛。

Mar, 2018

指数梯度更新的步长自适应

通过将指定的优化器与自适应调整方法相结合，基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长，进而提高在大规模应用中优化器的性能，并用指数化梯度更新方法来更新步长范围和增益变量，可在训练期间快速适应数据分布差异。

Jan, 2022

具有动态学习率上界的自适应梯度方法

本文提出了 AdaBound 和 AMSBound 两种新型变体算法，通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡，证明了它们的收敛性，并在各种任务和模型上进行了充分的实验，结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距，同时在训练初期保持更高的学习速度和取得显著的改进表现。

Feb, 2019