线性神经网络中离散梯度动态的隐式正则化
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层 ReLU 网络训练以及单数据点下的两层 sigmoid 激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文通过 Lyapunov 分析,证明了使用梯度下降法训练过程中神经网络权重的动态会收敛到接近最小范数解的一个点,并通过实例表明这一结论的意义在于 GD 收敛于泛化性能好的预测函数,从而提供了 Arora 等人的普适性结果的另一证明。
May, 2021
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
证明了通过梯度下降(以及正步长)学习多层同质函数时,该算法的梯度流可以有效地强制不同层之间的平方范数差异保持不变,从而自动平衡所有层的大小,由此可以深入研究利用一阶算法来优化学习深度模型的基本方法。
Jun, 2018
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在 ReLU 神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
通过一种新的神经再参数化方法,即对角线分组线性神经网络,研究了梯度下降对结构稀疏性的隐式正则化。与现有方法相比,我们的方法证明了最小化正则化和模拟下降无法模拟我们的训练轨迹,并在一般噪声设置中分析了相应的回归问题的梯度动态和最小极小误差率。
Jan, 2023
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
Nov, 2020
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019