非凸优化中的自适应策略
本文提出了一种自适应学习率算法,该算法利用了损失函数的随机曲率信息自动调整学习率,并且提出了一种新的方差缩减技术以加速收敛,在深度神经网络实验中,相比于流行的随机梯度算法获得了更好的性能。
Mar, 2017
通过研究广义AdaGrad步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现O(1/T)到O(1/根号T)的插值(带有对数项)。
May, 2018
通过引入重加权AdaGrad联合动量,AdaUSM在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和AdaGrad的学习率下降速度,同时还能实现SGD动量和Nesterov学习率全方位的整合。
Aug, 2018
该研究介绍了一种名为SCSG的自适应算法,通过批量方差降低和几何随机变量技术,该算法对强凸性和目标精度具有适应性,实现了比其他已有适应性算法更好的理论复杂度。
Apr, 2019
本文旨在从理论和实证角度分析适应性梯度算法在解决非凸非凹极小极大问题中的性能,并提出了一种名为乐观阿达格勒的自适应变体算法,证明了非凸非凹极小极大优化的自适应复杂性,并在生成对抗网络培训中显示出优越性能。
Dec, 2019
通过利用指数步长和随机线性搜索等技术,使得随机梯度下降算法适应不同噪声水平和问题相关的常数,可以在强凸函数的条件下,取得与理论最优相近的收敛速度,同时能够有效地处理噪声和数据不凸的情况。
Oct, 2021
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的AdaGrad-Norm的收敛速度,并表明AdaGrad-Norm在假设与最佳调优的非自适应SGD相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法,并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性,并证明在各种情况下,其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性,增强了自适应梯度方法的训练效果。
Jan, 2024
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
May, 2024