通过权重归一化实现强大的隐式正则化
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
通过一种新的神经再参数化方法,即对角线分组线性神经网络,研究了梯度下降对结构稀疏性的隐式正则化。与现有方法相比,我们的方法证明了最小化正则化和模拟下降无法模拟我们的训练轨迹,并在一般噪声设置中分析了相应的回归问题的梯度动态和最小极小误差率。
Jan, 2023
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文研究了超参数化神经网络在存在随机噪声的情况下恢复真实目标函数的能力,证明了采用 L2 正则化的神经网络与相应的神经切线核的核岭回归输出相似,并可以实现 L2 估计误差的最佳最小值,数值实验证实了该理论,同时表明 L2 正则化方法提高了训练的鲁棒性并适用于更广泛的神经网络。
Jul, 2020
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
研究在使用 ReLU 网络时,通过对已知区域进行插值,证明了经验风险最小化器在数据点和参数数目趋向无穷大时收敛到最小范数插值者,当且仅当对应于网络宽度和数据点增长的特定速率消失时对权重衰减正则化项进行惩罚,在显式和隐式正则化情况下,数值方法研究了常见优化算法对已知最小范数插值者的隐含偏好。
Nov, 2023
通过引入一种快速的迭代方法,可以最小化权重的 L2 范数,同时提高了测试准确率,从而为小批量数据提供了一种替代 CIFAR-10 和 ImageNet 的 ResNet-18 中的批量和分组规范化方法
Feb, 2019
通过实证发现,自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力,需要较少的调整,同时不一定得到更小的权重范数。
Nov, 2018