现代深度学习中为什么我们需要权重衰减?
本文从学习动态的角度提出了 weight decay 的一种新的理论解释,针对大批量训练,提出了线性缩放 weight decay 的规则,并且提出了一个稳定的 weight decay 调度方法(SWD),在各种实验中,SWD 方法往往比 L2 正则化和解耦的重量衰减有所改进。
Nov, 2020
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) regularizing input-output Jacobian norm;(3) 减小 second-order optimization 的 effective damping coefficient。
Oct, 2018
研究表明,对于深度神经网络的正则化应在其初期而非后期进行,且应当重视学习过程中的瞬态行为而非渐进行为。
May, 2019
深度学习中的低秩偏好与神经网络的神经层塌陷现象相关,权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。
Feb, 2024
L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离,还能够显著提高 Adam 的泛化性能,从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。
Nov, 2017
通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用,提出了数据增强对于提高深度学习泛化性能的显著贡献。因此,建议不要使用权值衰减和随机失活,而要更加关注数据增强和其他归纳偏差来优化神经网络。
Jun, 2018
研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响,发现 L2 正则化在与标准化结合使用时并没有规范化的作用,而是会影响权重的缩放和有效学习速率,还讨论了其他缓解这个问题的方法。
Jun, 2017
本文介绍了几种有效的设置超参数的方法,以显著减少训练时间并提高性能。具体来说,报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索,并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练,并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明,使用权重衰减作为示例正则化器,其优化值与学习率和动量密切相关。
Mar, 2018
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019