梯度正则化何时会有害?
本文发现梯度正规化可以在视觉任务中显著提高分类精度,特别是在训练数据较少的情况下。我们介绍了一种 Jacobian-based 的正规化方法,并在真实和合成数据上进行了实证研究,结果表明学习过程可以控制超出训练点的梯度,并产生良好的泛化能力。
Dec, 2017
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能,使用我们的方法可以改善不同数据集上的各种模型的泛化性能,并且最佳情况下可在这些任务上提供新的最先进性能。
Feb, 2022
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
本文提出了一种新的数据依赖性结构化梯度正则化器,旨在增加神经网络对抗扰动的鲁棒性,该正则化器可以从第一原理中导出。实验证据表明,结构化梯度正则化是对抗低水平信号污染攻击的有效一线防御。
May, 2018
通过系统性实验证明,深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率,并将网络推向更好条件的损失函数区域,从而提高超参数调优的鲁棒性和最终性能,同时揭示了不同热身阶段的运行模式,根据初始化和参数化的不同,在一定情况下可以完全消除热身的需要,并建议 Adam 中方差的初始化方式以获得类似热身的好处。
Jun, 2024
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
本文提出一种基于梯度的方法来调整模型的超参数,使其在对验证成本更有利的情况下进行模型参数梯度和更新,实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明,此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值,有望成为神经网络模型训练的有用工具。
Nov, 2015
通过大学习率 SGD 与 Annealing 方案推出二层神经网络;结果表明,相比小学习率模型,它更好地推广了不容易泛化的模式,并通过实验演示使用 CIFAR-10 图像说明了该概念。
Jul, 2019