迈向无参数优化的稳定性
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。
Dec, 2014
通过将指定的优化器与自适应调整方法相结合,基于指定的全局步长缩放和每个坐标的增益因子来调整全局步长,进而提高在大规模应用中优化器的性能,并用指数化梯度更新方法来更新步长范围和增益变量,可在训练期间快速适应数据分布差异。
Jan, 2022
本研究利用单循环方法,不需要关于距离 D 的知识,提出了一种对于复杂的凸 Lipschitz 函数时可以自适应地匹配手动调整的学习率的梯度下降算法,并且在大规模视觉和语言问题等多个领域中取得了优异的实际表现。
Jan, 2023
通过理论和实验证明,Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现(接近)最优复杂度,但复杂度中引入了一个依赖于 (L_1) 的指数项,这是不可避免的。同时,在确定性设置下,可以通过使用 Gradient Descent with a Backtracking Line Search 来抵消指数因子。这是首个在广义平滑条件下提出的无需参数设置的收敛结果。
Nov, 2023
我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法,并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性,并证明在各种情况下,其性能与手动调优的学习率相当。这项工作扩展了无学习率方法的适用性,增强了自适应梯度方法的训练效果。
Jan, 2024
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参数。
Feb, 2022
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
本文探讨了随机梯度下降法与多项式衰减步长之间的关系,并证明无调谐的随机梯度下降法具有渐进最优的收敛速率,但需要面临指数级的平滑度常数;而规范化 SGD、AMSGrad 和 AdaGrad 方法可以在不知道平滑度参数和随机梯度边界条件的情况下消除梯度爆炸问题。
May, 2023
YellowFin 是一种基于 SGD 优化的自动调参方法,通过手动调整学习率和动量,可以达到和 Adam 优化器相当的效果,同时在异步训练环境下,引入负反馈回路可以进一步提高收敛速度。
Jun, 2017