神经网络的等效标准化

ICLRFeb, 2019

Equi-normalization of Neural Networks

Pierre Stock, Benjamin Graham, Rémi Gribonval, Hervé Jégou

TL;DR通过引入一种快速的迭代方法，可以最小化权重的 L2 范数，同时提高了测试准确率，从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法

Abstract

Modern neural networks are over-parametrized. In particular, each rectified linear hidden unit can be modified by a multiplicative factor by adjusting input and output weights, without changing the rest of the network. Inspired by the Sinkhorn-Knopp algorithm, we introduce a fast itera

neural networks weight regularization l2 norm sgd test accuracy

发现论文，激发创造

L2 正则化与批量归一化和权重归一化比较

研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响，发现 L2 正则化在与标准化结合使用时并没有规范化的作用，而是会影响权重的缩放和有效学习速率，还讨论了其他缓解这个问题的方法。

Jun, 2017

规范化重要性：深度神经网络中高效准确的规范化方法

本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角，并建议了几种常用 L2 批归一化的替代方案，包括 L1 和 L∞范数中的归一化，以提高计算和内存效率，并且在低精度实现中大幅提高了数值稳定性，并且还提出了一种改进重要性重归一化的方法，可以提高其在大规模任务上的性能。

Mar, 2018

权重归一化：一种简单的重参数化方法加速深度神经网络训练

本研究介绍了一种重量归一化方法，通过重新参数化神经网络中的权向量来改善优化问题的条件，并加速随机梯度下降的收敛速度，从而可以应用于各种模型和应用中，如 LSTMs，神经网络生成模型和深度强化学习。

Feb, 2016

通过权重尺度不变正则化提高神经网络的泛化性能和鲁棒性

该研究论文介绍了一种改进神经网络正则化器的方法，该正则化器不仅能对权重衰减，还能考虑权重尺度偏移对正则化的影响，有效地限制神经网络的内在范数，并优化了对抗强度以提高泛化性能。

Aug, 2020

通过权重归一化实现强大的隐式正则化

本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性，并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。

May, 2023

权重衰减正则化的三种机制

三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) regularizing input-output Jacobian norm；(3) 减小 second-order optimization 的 effective damping coefficient。

Oct, 2018

卷积归一化：提高深度卷积网络的鲁棒性和训练效果

介绍了一种基于卷积结构的归一化方法 (Convolutional Normalization)，它可以方便地作为模块嵌入到任何卷积神经网络 (ConvNets) 中，通过提高权重的正交性和每层的通道等距性，减小权重矩阵的层范数，提高网络的 Lipschitzness 并且提高 GAN 性能和普适性。

Mar, 2021

超参数问题中最小权重范式模型不总是具有良好的泛化能力

通过实证发现，自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力，需要较少的调整，同时不一定得到更小的权重范数。

Nov, 2018

批量标准化：通过减少内部协变量漂移加速深层神经网络训练

该论文讨论了深度神经网络训练中的内部协变量漂移问题，并通过在模型架构内加入标准化方法及在每个训练 mini-batch 的操作中进行标准化，解决了此问题，在 Image Classification 上取得了优秀的表现。

Feb, 2015

ReLU 网络中批归一化的解析：等价的凸优化模型与隐式正则化

本文通过凸优化的视角分析 Batch Normalization，提出了一个基于凸对偶的解析框架，可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络，并证明在高维和过参数化情况下，理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题，并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应，通过我们的方法可以将这种隐式正则化显性编码到凸目标中，实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。

Mar, 2021