线性神经网络中离散梯度动态的隐式正则化
通过对深度线性神经网络的学习动态进行系统分析,我们发现这些网络表现出类似于非线性神经网络的非线性学习现象,包括长时间的平原,然后快速转换到更低误差的解决方案,以及从贪婪的无监督预训练初始条件下的更快收敛等。同时,我们发现在权重的某些特殊初始条件下,非监督预训练可以找到这些初始条件,同时表现出深度独立的学习时间,而随机高斯初始化则做不到。
Dec, 2013
本文通过引入梯度间隙偏差和梯度偏转等统计量,从理论和实证角度研究了内隐正则化在ReLU神经网络中的运作方式,结果表明通过随机初始化和随机梯度下降的方式有效地控制网络输出,使其在样本之间直线插值且负责度较低。
Mar, 2019
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文研究了梯度下降算法在优化神经网络时的表现,发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化,这种“隐性梯度正则化”导致梯度下降趋向于平坦的最小值,使解决方案对噪声参数扰动有很好的鲁棒性,这一理论有助于解决过拟合问题。
Sep, 2020
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023
通过对带有非线性激活函数的神经网络在矩阵感知问题中的隐性正则化现象的研究,我们引入了一种名为“光谱神经网络(SNN)”的网络架构,该架构在矩阵学习问题上具有更好的可解释性,通过数学保证和实证研究验证了其有效性。我们相信SNN架构在广泛的矩阵学习场景中具有潜在的适用性。
Feb, 2024
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024