深度学习中的分离权重衰减的 Adam 系列方法

Oct, 2023

深度学习中的分离权重衰减的 Adam 系列方法

Adam-family Methods with Decoupled Weight Decay in Deep Learning

Kuangyu Ding, Nachuan Xiao, Kim-Chuan Toh

TL;DR本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质，特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法，我们提出了一种新颖的具有分离权重衰减的 Adam 系列方法的框架。在这个框架中，对于随机子梯度的一阶和二阶矩的估计独立于权重衰减项进行更新。在适当的假设和非缩减的步长下，我们证明了所提出框架的收敛性质。此外，我们还表明所提出的框架包含了多种众所周知的 Adam 系列方法，从而为这些方法在训练非光滑神经网络时提供了收敛性保证。更重要的是，我们展示了所提出的框架渐近逼近 SGD 方法，从而解释了独立权重衰减如何增强 Adam 系列方法的泛化性能的经验观察。作为我们提出框架的实际应用，我们提出了一种名为 Adam with Decoupled Weight Decay (AdamD) 的新型 Adam 系列方法，并在适当条件下证明了其收敛性质。数值实验表明，AdamD 在泛化性能和效率方面优于 Adam，并与 AdamW 相当。

Abstract

In this paper, we investigate the convergence properties of a wide class of adam-family methods for minimizing quadratically regularized nonsmooth nonconvex optimization problems, especially in the context of tra

convergence properties adam-family methods nonsmooth neural networks weight decay generalization performance

发现论文，激发创造

解耦重量衰减正则化

L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的，但是在自适应梯度算法，比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤，提出了一个简单的修改，从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离，还能够显著提高 Adam 的泛化性能，从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。

Nov, 2017

具收敛性保证的非光滑优化的 Adam 家族方法

研究了 Adam 族方法在非光滑优化尤其是在训练非光滑神经网络方面的收敛性，提出了一个采用双时间尺度更新方案的新颖框架并证明了其在温和假设下的收敛性，介绍了一些植入了梯度剪切技术的随机次梯度方法并通过实验证明其高效性和健壮性。

May, 2023

AdamW 的隐式偏差: l∞范数约束优化

AdamW 在语言建模任务中表现出优越的性能，优于具有正则化 l2 项的 Adam 算法，本文通过分析表明 AdamW 隐式地进行了约束优化。

Apr, 2024

UAdam: 非凸随机优化的统一 Adam 型算法框架

我们介绍了一个统一的 Adam 型算法框架 (UAdam)，并在非凸随机设置下对其进行了收敛性分析，证明 UAdam 以 $\mathcal {O}(1/T)$ 的速率收敛于传统的 Adam 型算法 (如 NAdam、AMSGrad、AdaBound、AdaFom 和 Adan) 的次局部最优解附近，其中，区域大小随着 β 的增加而减小。此外，我们还发现只需将一阶动量因子靠近 1 即可使得分析成立，为 Adam 型算法的进一步分析和应用提供了理论保证。

May, 2023

权重规范控制

解耦权重衰减规则是权重范数控制的一种特例，任何使用解耦权重衰减规则（如 AdamW）的优化方法都可以看作是具有权重范数控制的更一般算法的一种特例。我们认为将目标权重范数设为 0 可能不是最优的，可以考虑其他目标范数值。例如，任何 AdamW 在达到特定权重范数的训练过程都可以通过设定达到类似权重范数的 AdamWN 来挑战。我们讨论了引入权重范数控制而不是权重衰减的各种影响。

Nov, 2023

使用交替方向乘子法的系统性 DNN 权重剪枝框架

采用交替方向乘子法（ADMM）的系统性权值剪枝框架解决了深度神经网络中常见的非凸优化问题和稀疏性约束问题，实现了较快的收敛速度和较优的剪枝效果。

Apr, 2018

Adam 在放宽假设下的随机优化收敛性

在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下，研究了 Adam 算法的理论性质，证明了它能够以高概率在多项式时间复杂度内找到一个稳定点，同时具有较好的自适应性能。

Feb, 2024

使用逐层自适应动量的随机梯度方法用于深度神经网络的训练

本文提出了一种自适应随机梯度下降算法 NovoGrad，具有分层梯度归一化和分离的权重衰减，模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法 SGD 与 Adam（优化算法），同时具有较好的鲁棒性、适用于大批量的训练，并且更省内存。

May, 2019

Adam 系列算法的新收敛分析

本研究通过对 Adam 优化器家族进行分析，提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法，并证明了使用随机梯度估计器的方差减少结果。

Dec, 2021

Adam：一种随机优化方法

Adam 是一种用于基于梯度的随机目标函数优化的算法，它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少，在对梯度进行对角重缩放时不变，并且非常适合在数据和 / 或参数方面比较大的问题。此外，它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释，并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好，并且与其他随机优化方法相比具有优势。此外，还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外，我们还分析了该算法的理论收敛性质，并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。

Dec, 2014