WNGrad: 梯度下降中的学习率学习

Mar, 2018

WNGrad: Learn the Learning Rate in Gradient Descent

Xiaoxia Wu, Rachel Ward, Léon Bottou

TL;DR我们提出了一种具有鲁棒性、适用于批量和随机梯度下降的学习率的非线性更新规则，该方法可实现基于梯度观察的学习率逐步降低，最终达到高效收敛。

Abstract

Adjusting the learning rate schedule in stochastic gradient methods is an important unresolved problem which requires tuning in practice. If certain parameters of the loss function such as smoothness or strong convexity constants are known, theoretical →

learning rate batch normalization stochastic gradient descent robustness convergence rates

发现论文，激发创造

使用随机梯度下降平滑非凸函数：隐式逐渐优化与最优噪声调度的分析

本文定义了用于 graduated optimization 的一类新的非凸函数，讨论了其充分条件，并对 graduated optimization 算法的收敛性进行了分析。研究发现，带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察，解释了为何大批量大小会陷入尖锐的局部最小值，以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小，并给出了最佳的学习率调度方法。此外，分析了一种新的 graduated optimization 框架，该框架使用逐渐减小的学习率和逐渐增大的批量大小，并报告了支持我们理论发现的图像分类的实验结果。

Nov, 2023

使用超梯度下降进行在线学习率调整

本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度，通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上，我们展示了该方法在一系列优化问题中的有效性，大大减少了对这些算法的初始学习率进行手动调整的需求；我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率，计算这个 “超梯度” 需要很少的额外计算，只需要将原始梯度的一个额外副本存储在内存中，并且只依靠于反向模式自动微分提供的内容。

Mar, 2017

深度学习的鲁棒自适应随机梯度方法

本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。

Mar, 2017

别再纠结学习率了

本文提出了一种自动调整多个学习率的方法，以使期望误差最小化，该方法依赖于样本之间的局部梯度变化，并在凸学习任务和非凸学习任务中证明了该算法具有与 SGD 或其他自适应方法相同的性能。

Jun, 2012

学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析

我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。

Jun, 2024

随机、稀疏、非光滑梯度的自适应学习率和并行化

本文针对随机梯度下降法（SGD）调参的问题，提出了一个不需调参的自动降低学习速率的方法，并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题，提高了算法性能。最终算法具有线性复杂度和无需超参数。

Jan, 2013

无惧选择：几乎所有的小批量调度都可以最优泛化

本研究建立了优化算法，分析了批处理的优点，证明了基于批处理训练的渐进误差上下界。

May, 2023

Polyak 学习率的随机梯度下降

本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中，并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解，该算法在训练深度神经网络等问题上表现良好。

Mar, 2019

Batch Normalization 自动调速的理论分析

本篇论文为 Batch Normalization 提供理论支持：即使在不同的学习速率下，通过 gradient descent 求解，BN 仍然可以使得收敛的速度达到最佳水平。

Dec, 2018

AdaGrad 步长：在非凸景观上的尖锐收敛

本文提出了一种更新梯度下降步长的方法：AdaGrad-Norm，不需要微调步长计划，对于光滑的非凸函数具有收敛性，并具备健壮性

Jun, 2018