神经网络的等效标准化
研究 Batch Normalization 和 L2 正则化在深度神经网络训练中的影响,发现 L2 正则化在与标准化结合使用时并没有规范化的作用,而是会影响权重的缩放和有效学习速率,还讨论了其他缓解这个问题的方法。
Jun, 2017
本研究提出了一种新的对归一化方法和权值衰减的目的和功能的视角,并建议了几种常用 L2 批归一化的替代方案,包括 L1 和 L∞范数中的归一化,以提高计算和内存效率,并且在低精度实现中大幅提高了数值稳定性,并且还提出了一种改进重要性重归一化的方法,可以提高其在大规模任务上的性能。
Mar, 2018
本研究介绍了一种重量归一化方法,通过重新参数化神经网络中的权向量来改善优化问题的条件,并加速随机梯度下降的收敛速度,从而可以应用于各种模型和应用中,如 LSTMs,神经网络生成模型和深度强化学习。
Feb, 2016
该研究论文介绍了一种改进神经网络正则化器的方法,该正则化器不仅能对权重衰减,还能考虑权重尺度偏移对正则化的影响,有效地限制神经网络的内在范数,并优化了对抗强度以提高泛化性能。
Aug, 2020
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) regularizing input-output Jacobian norm;(3) 减小 second-order optimization 的 effective damping coefficient。
Oct, 2018
介绍了一种基于卷积结构的归一化方法 (Convolutional Normalization),它可以方便地作为模块嵌入到任何卷积神经网络 (ConvNets) 中,通过提高权重的正交性和每层的通道等距性,减小权重矩阵的层范数,提高网络的 Lipschitzness 并且提高 GAN 性能和普适性。
Mar, 2021
通过实证发现,自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力,需要较少的调整,同时不一定得到更小的权重范数。
Nov, 2018
该论文讨论了深度神经网络训练中的内部协变量漂移问题,并通过在模型架构内加入标准化方法及在每个训练 mini-batch 的操作中进行标准化,解决了此问题,在 Image Classification 上取得了优秀的表现。
Feb, 2015
本文通过凸优化的视角分析 Batch Normalization,提出了一个基于凸对偶的解析框架,可以精确地描述用 Batch Normalization 训练的带有权重衰减的 ReLU 网络,并证明在高维和过参数化情况下,理论上可以获得一些简单的解析的最优层权重和可训练的凸约束优化问题,并发现梯度下降给标准的非凸 BN 网络提供了算法偏差效应,通过我们的方法可以将这种隐式正则化显性编码到凸目标中,实验结果表明该方法可以模拟和显著提高标准 BN 网络的性能。
Mar, 2021