梯度正则化何时会有害？

ICMLJun, 2024

When Will Gradient Regularization Be Harmful?

Yang Zhao, Hao Zhang, Xiuyuan Hu

TL;DR本文揭示了梯度正则化（GR）在自适应优化场景中可能导致性能下降的问题，并提出了三种 GR 热身策略来解决这些问题，实验证实这三种策略能够大幅提高模型性能。

Abstract

gradient regularization (GR), which aims to penalize the gradient norm atop the loss function, has shown promising results in training modern over-parameterized deep neural networks. However, can we trust this powerful technique? This paper reveals that GR can cause →

gradient regularization performance degeneration adaptive optimization learning rate warmup gr warmup strategies

发现论文，激发创造

梯度规范化提高了判别模型的准确性

本文发现梯度正规化可以在视觉任务中显著提高分类精度，特别是在训练数据较少的情况下。我们介绍了一种 Jacobian-based 的正规化方法，并在真实和合成数据上进行了实证研究，结果表明学习过程可以控制超出训练点的梯度，并产生良好的泛化能力。

Dec, 2017

隐式梯度正则化

本文研究了梯度下降算法在优化神经网络时的表现，发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化，这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值，使解决方案对噪声参数扰动有很好的鲁棒性，这一理论有助于解决过拟合问题。

Sep, 2020

惩罚梯度范数以有效提高深度学习的推广性能

本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能，使用我们的方法可以改善不同数据集上的各种模型的泛化性能，并且最佳情况下可在这些任务上提供新的最先进性能。

Feb, 2022

通过权重归一化实现强大的隐式正则化

本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性，并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。

May, 2023

通过结构化梯度正则化进行对抗性鲁棒性训练

本文提出了一种新的数据依赖性结构化梯度正则化器，旨在增加神经网络对抗扰动的鲁棒性，该正则化器可以从第一原理中导出。实验证据表明，结构化梯度正则化是对抗低水平信号污染攻击的有效一线防御。

May, 2018

为什么要热身学习率？机制及改进

通过系统性实验证明，深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率，并将网络推向更好条件的损失函数区域，从而提高超参数调优的鲁棒性和最终性能，同时揭示了不同热身阶段的运行模式，根据初始化和参数化的不同，在一定情况下可以完全消除热身的需要，并建议 Adam 中方差的初始化方式以获得类似热身的好处。

Jun, 2024

超参数化神经网络中的隐式正则化

本文通过引入梯度间隙偏差和梯度偏转等统计量，从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式，结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出，使其在样本之间直线插值且负责度较低。

Mar, 2019

存在糟糕的全局最小值，并且 SGD 可以到达它们

通过研究深度神经网络的显式正则化对随机梯度下降的作用，证实显式正则化对于高参数化的神经网络成功的贡献远比随机梯度下降方法更为重要。

Jun, 2019

基于梯度的可扩展连续正则化超参数调整

本文提出一种基于梯度的方法来调整模型的超参数，使其在对验证成本更有利的情况下进行模型参数梯度和更新，实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明，此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值，有望成为神经网络模型训练的有用工具。

Nov, 2015

关于初始大学习率在神经网络训练中正则化作用的解释

通过大学习率 SGD 与 Annealing 方案推出二层神经网络；结果表明，相比小学习率模型，它更好地推广了不容易泛化的模式，并通过实验演示使用 CIFAR-10 图像说明了该概念。

Jul, 2019