可微分的自适应学习率
本文介绍一种通用的方法来提高基于梯度的优化算法的收敛速度,通过将该方法应用到随机梯度下降、带有 Nesterov 动量的随机梯度下降和 Adam 等常用算法上,我们展示了该方法在一系列优化问题中的有效性,大大减少了对这些算法的初始学习率进行手动调整的需求;我们的方法通过使用与更新规则自身的学习率相关的梯度在优化过程中动态更新学习率,计算这个 “超梯度” 需要很少的额外计算,只需要将原始梯度的一个额外副本存储在内存中,并且只依靠于反向模式自动微分提供的内容。
Mar, 2017
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
May, 2017
提出了一种名为 ADADELTA 的针对梯度下降的每维学习率的新方法,该方法仅使用一阶信息在时间上动态自适应,除了香草随机梯度下降之外几乎没有计算开销,并且不需要手动调整学习率,且与嘈杂的渐变信息、不同的模型架构选择、各种数据形态和超参数的选择都表现出鲁棒性,在 MNIST 数字分类任务上使用单个机器并在分布式群集环境中使用大规模语音数据集展示出与其他方法相比令人期待的结果。
Dec, 2012
本文针对深度学习中的非凸随机优化问题,提出了适当的学习率,并使用自适应学习率优化算法(如 Adam 和 AMSGrad),可以近似问题的固定点,同时保证这些算法可以近似凸随机优化问题的全局最小值,在文本和图像分类的实验中,采用不同的学习率优化算法,结果表明使用恒定学习率性能比衰减学习率的性能更佳。
Feb, 2020
本文提出了 AdaBound 和 AMSBound 两种新型变体算法,通过采用动态的学习率边界来实现自适应方法与 SGD 方法之间的平稳过渡,证明了它们的收敛性,并在各种任务和模型上进行了充分的实验,结果表明这两种方法可以消除自适应方法与 SGD 之间的 “普适 - 泛化” 差距,同时在训练初期保持更高的学习速度和取得显著的改进表现。
Feb, 2019
本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案(Stepsize Adaptation Scheme),以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验,通过该方案改进了它们的性能,在多种网络结构和数据集上进行了验证。与定常步长相比,增强优化器在不增加计算量的情况下,表现稳定优于定常步长优化器,甚至是最佳的优化器。
Feb, 2018
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
本文针对随机梯度下降法(SGD)调参的问题,提出了一个不需调参的自动降低学习速率的方法,并通过在迭代中解决并行化、更新方法、非光滑损失函数以及 Hessian 矩阵估计等问题,提高了算法性能。最终算法具有线性复杂度和无需超参数。
Jan, 2013
本文提出了一种优化方法以训练深度神经网络,该方法使用适应性学习率,以增加函数曲率低点的学习率。这可以加快网络浅层的学习,快速退出高误差低曲率鞍点,提高标准算法的准确性并减少所需的训练时间。
Oct, 2015