L2 正则化与批量归一化和权重归一化比较
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) regularizing input-output Jacobian norm;(3) 减小 second-order optimization 的 effective damping coefficient。
Oct, 2018
本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角,并建议了几种常用 L2 批归一化的替代方案,包括 L1 和 L∞范数中的归一化,以提高计算和内存效率,并且在低精度实现中大幅提高了数值稳定性,并且还提出了一种改进重要性重归一化的方法,可以提高其在大规模任务上的性能。
Mar, 2018
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
本篇论文详细研究了批量归一化在训练神经网络中的作用,以及其与其他优化方法的比较,主要目的是通过改进训练过程判断是否有可能在不使用批量归一化情况下有效地训练网络。
Aug, 2020
L$_2$ 正则化与权重衰减正则化在标准随机梯度下降中是等价的,但是在自适应梯度算法,比如 Adam 中并不相同。本文通过 “解耦” 权重衰减与代价函数的优化步骤,提出了一个简单的修改,从而恢复了原始的权重衰减规则。实验证据表明我们提出的修改不仅能够使得标准 SGD 和 Adam 中的权重衰减因素的最优选择与学习率的设置相分离,还能够显著提高 Adam 的泛化性能,从而使得它在图像分类数据集中可以与 SGD with momentum 竞争。
Nov, 2017
通过对神经网络的基本结构进行分析,我们发现批量标准化通过人口标准化和 gamma 衰减作为显式正则化来实现隐式正则化,可以提高训练收敛性和泛化性,同时提供了学习动力学和正则化的学习方法,这一理论与实验证明了在卷积神经网络中批量标准化和上述分析具有相同的正则化特性。
Sep, 2018
研究表明,批量标准化在深度神经网络的训练中可以降低参数更新次数,但会导致对小型对抗性输入扰动和噪音的鲁棒性降低,同时使用权重衰减可以消除其对输入尺寸的影响。
May, 2019
本文介绍了几种有效的设置超参数的方法,以显著减少训练时间并提高性能。具体来说,报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索,并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练,并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明,使用权重衰减作为示例正则化器,其优化值与学习率和动量密切相关。
Mar, 2018
研究表明,对于深度神经网络的正则化应在其初期而非后期进行,且应当重视学习过程中的瞬态行为而非渐进行为。
May, 2019
本文提出了一项引理来解释多种神经网络中的归一化方法,从而能够在统一的框架下解释归一化的概念。我们的结论是,这些归一化方法能够让权重的范数增大,可能会造成攻击性漏洞的风险,同时,证明这些归一化方法可以帮助稳定网络训练。
Jun, 2020