多元神经网络学习真实目标函数
研究神经网络单隐层的一般化性能,使用非欧几里得正则化工具,证明了它们适应未知的线性结构,而使用稀疏感应规范则可以实现高维非线性变量选择,提供了简单的几何解释,并提供了一些凸松弛的简单条件来实现相同的一般化误差界限,留下存在或不存在多项式时间算法的问题。
Dec, 2014
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
该论文分析了一个简单的2层ReLU网络的训练和泛化,通过对相关内核的特性进行追踪,提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。
Jan, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
本文探讨了神经网络架构的泛化能力,发现训练和泛化在整洁和结构化的数据集上很容易,在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间,本文证明了即使是常数宽度的神经网络,对于足够好的数据集也可以证明泛化。
Jun, 2019
本文通过分析神经核算法的光谱,提供了对于训练和推广条件的表征,特别地,在讨论极深和宽的神经网络时,发现神经核数仅仅维持有限的数据相关性,并考虑各种网络模型在很大的超参数空间区域内训练集过度拟合而且通常无法推广;同时,与深度神经网络及其卷积形式的全局平均池化相关的理论和实验结果得到了分析。
Dec, 2019
本文探讨了二层ReLU神经网络梯度下降训练过程中的特征学习,研究了使用XOR函数生成的带标签二进制数据,对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好,而使用梯度下降训练二层ReLU神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术,证明了在初始化时,绝大多数神经元都具有随机特征的性质,与有用特征之间的相关性较弱,而梯度下降动态将这些弱随机特征“放大”为强有用特征。
Feb, 2022
我们在神经切向核(NTK)范围内对使用梯度下降(GD)训练的两层神经网络的泛化性质进行分析,对于早停止的GD,我们得到了在再现核希尔伯特空间的非参数回归框架中已知为最小化最优的快速收敛速度;在此过程中,我们准确地跟踪了泛化所需的隐藏神经元的数量,并改进了现有的结果;此外,我们进一步展示了在训练过程中,权重保持在初始化附近的一个领域内,该半径取决于回归函数的平滑度和与NTK相关的积分算子的特征值衰减等结构假设。
Sep, 2023