WNGrad: 梯度下降中的学习率学习
本文定义了用于 graduated optimization 的一类新的非凸函数,讨论了其充分条件,并对 graduated optimization 算法的收敛性进行了分析。研究发现,带有 mini-batch 随机梯度的随机梯度下降 (SGD) 方法可以使函数平滑的程度由学习率和 batch size 决定。此发现从 graduated optimization 的角度提供了理论洞察,解释了为何大批量大小会陷入尖锐的局部最小值,以及为何逐渐减小的学习率和逐渐增大的批量大小优于固定的学习率和批量大小,并给出了最佳的学习率调度方法。此外,分析了一种新的 graduated optimization 框架,该框架使用逐渐减小的学习率和逐渐增大的批量大小,并报告了支持我们理论发现的图像分类的实验结果。
Nov, 2023
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文提出了一种自动调整多个学习率的方法,以使期望误差最小化,该方法依赖于样本之间的局部梯度变化,并在凸学习任务和非凸学习任务中证明了该算法具有与 SGD 或其他自适应方法相同的性能。
Jun, 2012
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中,并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解,该算法在训练深度神经网络等问题上表现良好。
Mar, 2019
本篇论文为 Batch Normalization 提供理论支持:即使在不同的学习速率下,通过 gradient descent 求解,BN 仍然可以使得收敛的速度达到最佳水平。
Dec, 2018