别再纠结学习率了

Jun, 2012

No More Pesky Learning Rates

Tom Schaul, Sixin Zhang, Yann LeCun

TL;DR本文提出了一种自动调整多个学习率的方法，以使期望误差最小化，该方法依赖于样本之间的局部梯度变化，并在凸学习任务和非凸学习任务中证明了该算法具有与 SGD 或其他自适应方法相同的性能。

Abstract

The performance of stochastic gradient descent (SGD) depends critically on how learning rates are tuned and decreased over time. We propose a method to automatically adjust multiple →

stochastic gradient descent learning rates expected error local gradient variations non-stationary problems

发现论文，激发创造

随机、稀疏、非光滑梯度的自适应学习率和并行化

本文针对随机梯度下降法（SGD）调参的问题，提出了一个不需调参的自动降低学习速率的方法，并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题，提高了算法性能。最终算法具有线性复杂度和无需超参数。

Jan, 2013

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

利用统计学自动化随机优化

提出一种基于统计检验的适应性方法，通过检测随机梯度下降算法的动态变化达到均衡状态后衰减学习率，解决了手动调参的繁琐问题，实现了类似于手动调参的性能并在多个深度学习任务中得到了验证。

Sep, 2019

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

训练深度神经网络的自适应学习率优化算法的适当学习率

本文针对深度学习中的非凸随机优化问题，提出了适当的学习率，并使用自适应学习率优化算法（如 Adam 和 AMSGrad），可以近似问题的固定点，同时保证这些算法可以近似凸随机优化问题的全局最小值，在文本和图像分类的实验中，采用不同的学习率优化算法，结果表明使用恒定学习率性能比衰减学习率的性能更佳。

Feb, 2020

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

统计自适应随机梯度方法

提出一种名为 SALSA 的统计自适应程序，用于自动调整随机梯度方法中的学习率（步长），该方法使用平滑的随机线性搜索程序逐渐增加学习率，然后自动转换为一个新的统计方法来降低学习率，它在广泛的随机梯度算法中使用了一个新的统计测试来检测状态，能够适应多类深度学习任务。

Feb, 2020

WNGrad: 梯度下降中的学习率学习

我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则，该方法可实现基于梯度观察的学习率逐步降低，最终达到高效收敛。

Mar, 2018

面向噪声自适应、问题自适应（加速）随机梯度下降

通过利用指数步长和随机线性搜索等技术，使得随机梯度下降算法适应不同噪声水平和问题相关的常数，可以在强凸函数的条件下，取得与理论最优相近的收敛速度，同时能够有效地处理噪声和数据不凸的情况。

Oct, 2021

随机梯度算法的变分分析

本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断，通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架，让 SGD 有效地作为贝叶斯推断的一种方法，发现其可以成为概率模型优化超参数的一种新途径。

Feb, 2016