L2 正则化与批量归一化和权重归一化比较

Jun, 2017

L2 正则化与批量归一化和权重归一化比较

L2 Regularization versus Batch and Weight Normalization

Twan van Laarhoven

TL;DR研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响，发现 L2 正则化在与标准化结合使用时并没有规范化的作用，而是会影响权重的缩放和有效学习速率，还讨论了其他缓解这个问题的方法。

Abstract

batch normalization is a commonly used trick to improve the training of deep neural networks. These neural networks use l2 regularization, also called weight decay, ostensibly to prevent overfitting. However, we

batch normalization l2 regularization deep neural networks learning rate optimization

发现论文，激发创造

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

规范化重要性：深度神经网络中高效准确的规范化方法

本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角，并建议了几种常用 L2 批归一化的替代方案，包括 L1 和 L∞范数中的归一化，以提高计算和内存效率，并且在低精度实现中大幅提高了数值稳定性，并且还提出了一种改进重要性重归一化的方法，可以提高其在大规模任务上的性能。

Mar, 2018

神经网络的等效标准化

通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Feb, 2019

无批归一化训练深度神经网络

本篇论文详细研究了批量归一化在训练神经网络中的作用，以及其与其他优化方法的比较，主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。

Aug, 2020

解耦重量衰减正则化

L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的，但是在自适应梯度算法，比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤，提出了一个简单的修改，从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离，还能够显著提高 Adam 的泛化性能，从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。

Nov, 2017

批量归一化中正则化的理解

通过对神经网络的基本结构进行分析，我们发现批量标准化通过人口标准化和 gamma 衰减作为显式正则化来实现隐式正则化，可以提高训练收敛性和泛化性，同时提供了学习动力学和正则化的学习方法，这一理论与实验证明了在卷积神经网络中批量标准化和上述分析具有相同的正则化特性。

Sep, 2018

批量归一化导致对抗性攻击性漏洞

研究表明，批量标准化在深度神经网络的训练中可以降低参数更新次数，但会导致对小型对抗性输入扰动和噪音的鲁棒性降低，同时使用权重衰减可以消除其对输入尺寸的影响。

May, 2019

神经网络超参数的纪律性方法：第 1 部分 —— 学习速率、批量大小、动量和权重衰减

本文介绍了几种有效的设置超参数的方法，以显著减少训练时间并提高性能。具体来说，报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索，并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练，并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明，使用权重衰减作为示例正则化器，其优化值与学习率和动量密切相关。

Mar, 2018

正则化深层网络时时间很重要：权重衰减和数据增强影响早期学习动态，在收敛附近影响不大

研究表明，对于深度神经网络的正则化应在其初期而非后期进行，且应当重视学习过程中的瞬态行为而非渐进行为。

May, 2019

深度学习中标准化方法的新诠释

本文提出了一项引理来解释多种神经网络中的归一化方法，从而能够在统一的框架下解释归一化的概念。我们的结论是，这些归一化方法能够让权重的范数增大，可能会造成攻击性漏洞的风险，同时，证明这些归一化方法可以帮助稳定网络训练。

Jun, 2020