本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差,提供了新的对于随机梯度方法多周期泛化性能好的解释,对于神经网络的训练也有新的稳定性解释。
Sep, 2015
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
该论文研究了深度神经网络中过拟合的问题,证明了使用特定的损失函数时神经网络的收敛性及性能,提出了一种实用的判断不同零最小化点泛化性能的方法。
Jun, 2018
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性,从而解决了与深度网络泛化性能相关的一些谜团。
Aug, 2019
探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响,我们证明了过度参数化会引入伪平衡点,阻碍梯度下降算法的收敛。
May, 2023
本文通过动态稳定性的角度研究了随机梯度下降法(SGD)的隐式正则化,并探讨了稳定的最小值对二层ReLU神经网络和对角线线性网络的广义性能影响,发现SGD的稳定性正则化较于GD更强,LR越大效果越明显,解释了为什么SGD比GD更具普适性。
我们研究了具有噪声标签的一元非参数回归问题中两层ReLU神经网络的泛化。我们提出了一种新的局部极小值泛化理论,证明了梯度下降算法在常数学习率下能稳定收敛至该极小值。我们证明了在合理的假设下,梯度下降算法可以找到表示平滑函数的局部极小值,并给出了均方误差的近乎最优上界。我们的理论结果通过大量模拟验证,表明大学习率训练可以得到稀疏线性样条拟合。我们是第一个在非插值情况下通过极小值稳定性获得泛化界限的研究,并且证明了没有正则化的ReLU神经网络可以在非参数回归中实现接近最优的速率。
Jun, 2024