别再纠结学习率了
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
提出一种基于统计检验的适应性方法,通过检测随机梯度下降算法的动态变化达到均衡状态后衰减学习率,解决了手动调参的繁琐问题,实现了类似于手动调参的性能并在多个深度学习任务中得到了验证。
Sep, 2019
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
本文针对深度学习中的非凸随机优化问题,提出了适当的学习率,并使用自适应学习率优化算法(如 Adam 和 AMSGrad),可以近似问题的固定点,同时保证这些算法可以近似凸随机优化问题的全局最小值,在文本和图像分类的实验中,采用不同的学习率优化算法,结果表明使用恒定学习率性能比衰减学习率的性能更佳。
Feb, 2020
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
提出一种名为 SALSA 的统计自适应程序,用于自动调整随机梯度方法中的学习率(步长),该方法使用平滑的随机线性搜索程序逐渐增加学习率,然后自动转换为一个新的统计方法来降低学习率,它在广泛的随机梯度算法中使用了一个新的统计测试来检测状态,能够适应多类深度学习任务。
Feb, 2020
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016