AdamW 的隐式偏差: l∞范数约束优化
本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质,特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法,我们提出了一种新颖的具有分离权重衰减的 Adam 系列方法的框架。在这个框架中,对于随机子梯度的一阶和二阶矩的估计独立于权重衰减项进行更新。在适当的假设和非缩减的步长下,我们证明了所提出框架的收敛性质。此外,我们还表明所提出的框架包含了多种众所周知的 Adam 系列方法,从而为这些方法在训练非光滑神经网络时提供了收敛性保证。更重要的是,我们展示了所提出的框架渐近逼近 SGD 方法,从而解释了独立权重衰减如何增强 Adam 系列方法的泛化性能的经验观察。作为我们提出框架的实际应用,我们提出了一种名为 Adam with Decoupled Weight Decay (AdamD) 的新型 Adam 系列方法,并在适当条件下证明了其收敛性质。数值实验表明,AdamD 在泛化性能和效率方面优于 Adam,并与 AdamW 相当。
Oct, 2023
解耦权重衰减规则是权重范数控制的一种特例,任何使用解耦权重衰减规则(如 AdamW)的优化方法都可以看作是具有权重范数控制的更一般算法的一种特例。我们认为将目标权重范数设为 0 可能不是最优的,可以考虑其他目标范数值。例如,任何 AdamW 在达到特定权重范数的训练过程都可以通过设定达到类似权重范数的 AdamWN 来挑战。我们讨论了引入权重范数控制而不是权重衰减的各种影响。
Nov, 2023
L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离,还能够显著提高 Adam 的泛化性能,从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。
Nov, 2017
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
前人的研究表明,通过反向误差分析可以找到逼近梯度下降轨迹的常微分方程(ODEs)。本文证明 RMSProp 和 Adam 中存在类似的隐式正则化现象,取决于超参数和训练阶段,并与之前的研究有所不同。我们还进行了数值实验,并讨论了这些事实如何影响泛化能力。
Aug, 2023
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) regularizing input-output Jacobian norm;(3) 减小 second-order optimization 的 effective damping coefficient。
Oct, 2018
研究了自适应矩估计算法(Adam)在无约束非凸平滑随机优化中的收敛性,证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点,不需要任何有界梯度假设和问题相关的先验知识来调整超参数,同时还研究了一个简化版本的 Adam 算法以适应噪声水平。
Nov, 2023
本文提供了自适应矩估计(Adam)算法对于广泛类别的优化目标的收敛性严谨证明,并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时,我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。
Apr, 2023
本文证明了自适应随机梯度方法的规范版本(AdaGrad-Norm)在强凸函数或满足 Polyak Lojasiewicz 不等式的非凸函数的子集中,达到的收敛速度是线性的。文中引入了梯度的限制均衡不等式(RUIG)的概念,用来描述函数的景观,并且 RUIG 在证明 AdaGrad-Norm 对超参数调整的鲁棒性中发挥着关键作用。我们开发了一个两阶段的框架来证明 AdaGrad-Norm 的线性收敛,而不知道目标函数的参数。数值实验验证了理论,并提出了未来的改进方向。
Aug, 2019