朝向更好的泛化:权重衰减引导神经网络低秩偏差
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
本篇论文提出一种新的权重规范化方法,即稳定秩规范化(SRN),可用于神经网络分类器和GAN中的分类器(SRN-GAN)。在实验中显示,使用SRN可以显著提高分类器和GAN生成结果的性能,同时减少记忆。
Jun, 2019
本文探讨了神经网络架构的泛化能力,发现训练和泛化在整洁和结构化的数据集上很容易,在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间,本文证明了即使是常数宽度的神经网络,对于足够好的数据集也可以证明泛化。
Jun, 2019
该研究论文介绍了一种改进神经网络正则化器的方法,该正则化器不仅能对权重衰减,还能考虑权重尺度偏移对正则化的影响,有效地限制神经网络的内在范数,并优化了对抗强度以提高泛化性能。
Aug, 2020
通过发现前馈神经网络中某一层神经元的活动变化与连接到下一层神经元的权重变化之间的完全对偶性,我们提出了一个统一的框架来研究如何控制两个几何因子(loss地形的尖锐度和双重权重值的标准差,其缩放与解的权重范数成比例)来影响一般化的性能,控制分类器的通用性。
Mar, 2022
该研究通过神经切向核(NTK)模式下的梯度下降探讨了训练一层过度参数化的ReLU网络,其中网络的偏置被初始化为某个常量而不是零。该初始化的诱人好处是神经网络将可以在整个训练过程中保持稀疏激活,从而实现快速训练。结果表明,在稀疏化后,网络可以实现与密集网络一样快的收敛速度。其次,提供了宽度稀疏性的相关性,给出了一个稀疏性相关的Rademacher复杂度和泛化性能界限。最后,研究了极限NTK的最小特征值,发现可以使用可训练偏置来提高推广性。
Jan, 2023
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
May, 2023
深度学习中的低秩偏好与神经网络的神经层塌陷现象相关,权重衰减参数的增长导致网络中每一层的秩与前一层隐藏空间嵌入的类内变异成正比减少。
Feb, 2024
神经网络过拟合问题涉及超参数,随机梯度下降以及网络架构等因素,本文通过研究随机和经优化的网络来解析由优化和架构选择引起的泛化问题,实验证明对于增加的宽度,超参数化对泛化有益,并且这一益处源于随机梯度下降的偏差,而不是网络架构导致的;相反,对于增加的深度,超参数化对泛化不利,但随机和经优化的网络表现相似,因此这可以归因于架构偏差。
Jul, 2024