Oct, 2023

深度学习中的分离权重衰减的 Adam 系列方法

TL;DR本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质,特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法,我们提出了一种新颖的具有分离权重衰减的 Adam 系列方法的框架。在这个框架中,对于随机子梯度的一阶和二阶矩的估计独立于权重衰减项进行更新。在适当的假设和非缩减的步长下,我们证明了所提出框架的收敛性质。此外,我们还表明所提出的框架包含了多种众所周知的 Adam 系列方法,从而为这些方法在训练非光滑神经网络时提供了收敛性保证。更重要的是,我们展示了所提出的框架渐近逼近 SGD 方法,从而解释了独立权重衰减如何增强 Adam 系列方法的泛化性能的经验观察。作为我们提出框架的实际应用,我们提出了一种名为 Adam with Decoupled Weight Decay (AdamD) 的新型 Adam 系列方法,并在适当条件下证明了其收敛性质。数值实验表明,AdamD 在泛化性能和效率方面优于 Adam,并与 AdamW 相当。