现代深度学习中为什么我们需要权重衰减？

Oct, 2023

现代深度学习中为什么我们需要权重衰减？

Why Do We Need Weight Decay in Modern Deep Learning?

Maksym Andriushchenko, Francesco D'Angelo, Aditya Varre, Nicolas Flammarion

TL;DR从 ResNets 到 LLMs 的统一视角，权重衰减不是一个显式正则化器，而是以期望的方式改变训练动态。

Abstract

weight decay is a broadly used technique for training state-of-the-art deep networks, including large language models. Despite its widespread usage, its role remains poorly understood. In this work, we highlight that the role of →

weight decay deep networks optimization dynamics stochastic optimization bias-variance tradeoff

发现论文，激发创造

理解和调度权值衰减

本文从学习动态的角度提出了 weight decay 的一种新的理论解释，针对大批量训练，提出了线性缩放 weight decay 的规则，并且提出了一个稳定的 weight decay 调度方法（SWD），在各种实验中，SWD 方法往往比 L2 正则化和解耦的重量衰减有所改进。

Nov, 2020

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

深度网络真的需要权重衰减和丢弃吗？

通过实验研究发现，即使不采取常见的正则化技术，通过引入足够的数据扩增，可以实现深度神经网络在目标识别上的高准确性

Feb, 2018

正则化深层网络时时间很重要：权重衰减和数据增强影响早期学习动态，在收敛附近影响不大

研究表明，对于深度神经网络的正则化应在其初期而非后期进行，且应当重视学习过程中的瞬态行为而非渐进行为。

May, 2019

神经排序崩溃：权重衰减和小的内类变异性带来低秩偏差

深度学习中的低秩偏好与神经网络的神经层塌陷现象相关，权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。

Feb, 2024

解耦重量衰减正则化

L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的，但是在自适应梯度算法，比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤，提出了一个简单的修改，从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离，还能够显著提高 Adam 的泛化性能，从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。

Nov, 2017

数据增强代替显式正则化

通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用，提出了数据增强对于提高深度学习泛化性能的显著贡献。因此，建议不要使用权值衰减和随机失活，而要更加关注数据增强和其他归纳偏差来优化神经网络。

Jun, 2018

L2 正则化与批量归一化和权重归一化比较

研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响，发现 L2 正则化在与标准化结合使用时并没有规范化的作用，而是会影响权重的缩放和有效学习速率，还讨论了其他缓解这个问题的方法。

Jun, 2017

神经网络超参数的纪律性方法：第 1 部分 —— 学习速率、批量大小、动量和权重衰减

本文介绍了几种有效的设置超参数的方法，以显著减少训练时间并提高性能。具体来说，报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索，并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练，并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明，使用权重衰减作为示例正则化器，其优化值与学习率和动量密切相关。

Mar, 2018

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019