解耦重量衰减正则化

ICLRNov, 2017

Decoupled Weight Decay Regularization

Ilya Loshchilov, Frank Hutter

TL;DRL$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的，但是在自适应梯度算法，比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤，提出了一个简单的修改，从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离，还能够显著提高 Adam 的泛化性能，从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。

Abstract

L$_2$ regularization and weight decay regularization are equivalent for standard stochastic gradient descent (when rescaled by the learning rate), but as we demonstrate this is \emph{not} the case for adaptive gradient

l$_2$ regularization weight decay regularization adaptive gradient algorithms sgd adam

发现论文，激发创造

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

深度学习中的分离权重衰减的 Adam 系列方法

本研究探讨了一类广泛的 Adam 系列方法在最小化二次正则化非光滑非凸优化问题中的收敛性质，特别是在训练带有权重衰减的非光滑神经网络的情况下。通过引入修正权重衰减的 AdamW 方法，我们提出了一种新颖的具有分离权重衰减的 Adam 系列方法的框架。在这个框架中，对于随机子梯度的一阶和二阶矩的估计独立于权重衰减项进行更新。在适当的假设和非缩减的步长下，我们证明了所提出框架的收敛性质。此外，我们还表明所提出的框架包含了多种众所周知的 Adam 系列方法，从而为这些方法在训练非光滑神经网络时提供了收敛性保证。更重要的是，我们展示了所提出的框架渐近逼近 SGD 方法，从而解释了独立权重衰减如何增强 Adam 系列方法的泛化性能的经验观察。作为我们提出框架的实际应用，我们提出了一种名为 Adam with Decoupled Weight Decay (AdamD) 的新型 Adam 系列方法，并在适当条件下证明了其收敛性质。数值实验表明，AdamD 在泛化性能和效率方面优于 Adam，并与 AdamW 相当。

Oct, 2023

L2 正则化与批量归一化和权重归一化比较

研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响，发现 L2 正则化在与标准化结合使用时并没有规范化的作用，而是会影响权重的缩放和有效学习速率，还讨论了其他缓解这个问题的方法。

Jun, 2017

AdamW 的隐式偏差: l∞范数约束优化

AdamW 在语言建模任务中表现出优越的性能，优于具有正则化 l2 项的 Adam 算法，本文通过分析表明 AdamW 隐式地进行了约束优化。

Apr, 2024

现代深度学习中为什么我们需要权重衰减？

从 ResNets 到 LLMs 的统一视角，权重衰减不是一个显式正则化器，而是以期望的方式改变训练动态。

Oct, 2023

理解和调度权值衰减

本文从学习动态的角度提出了 weight decay 的一种新的理论解释，针对大批量训练，提出了线性缩放 weight decay 的规则，并且提出了一个稳定的 weight decay 调度方法（SWD），在各种实验中，SWD 方法往往比 L2 正则化和解耦的重量衰减有所改进。

Nov, 2020

权重规范控制

解耦权重衰减规则是权重范数控制的一种特例，任何使用解耦权重衰减规则（如 AdamW）的优化方法都可以看作是具有权重范数控制的更一般算法的一种特例。我们认为将目标权重范数设为 0 可能不是最优的，可以考虑其他目标范数值。例如，任何 AdamW 在达到特定权重范数的训练过程都可以通过设定达到类似权重范数的 AdamWN 来挑战。我们讨论了引入权重范数控制而不是权重衰减的各种影响。

Nov, 2023

任意 $p$ 范数的分离权重衰减

通过桥接 $L_p$ 正则化的权重衰减方案，提出了一个简单而有效的稀疏化方法，以应对大规模神经网络的计算和存储要求，并避免了 $0<p<1$ 的正则化梯度发散问题，实验证明其导致高度稀疏的网络，同时保持与标准 $L_2$ 正则化相当的泛化性能。

Apr, 2024

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

数据增强代替显式正则化

通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用，提出了数据增强对于提高深度学习泛化性能的显著贡献。因此，建议不要使用权值衰减和随机失活，而要更加关注数据增强和其他归纳偏差来优化神经网络。

Jun, 2018