超参数神经网络的最小范数解的泛化误差
本研究 对二层神经网络模型的梯度下降动态进行了较全面的分析,并考虑了在更新两个层的参数时,一般的初始化方案以及网络宽度和训练数据大小的一般方案。在过度参数化的情况下,梯度下降动态可以快速地达到零训练损失,无论标签的质量如何。此外,证明了神经网络模型所表示的函数始终与核方法的函数保持一致。对于网络宽度和训练数据大小的一般值,建立了适当的再生核 Hilbert 空间的目标函数的尖锐估计。
Apr, 2019
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
通过实证发现,自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力,需要较少的调整,同时不一定得到更小的权重范数。
Nov, 2018
本研究提出了基于单元能力的复杂度度量,为两层 ReLU 网络提供了更紧密的泛化界限,这可能有助于解释神经网络过参数化的泛化改进现象。同时,我们还提出了一个匹配的 Rademacher 复杂性下限,该下限优于之前神经网络的容量下限。
May, 2018
该研究提供了一个理论框架,用于评估图神经网络在过度参数化阶段中进行图分类任务的泛化误差,其中参数数量超过数据点数量。我们探索了两种广泛使用的图神经网络类型:图卷积神经网络和消息传递图神经网络。在该研究之前,过度参数化阶段对泛化误差的现有界限不具信息性,限制了我们对过度参数化网络性能的理解。我们的新方法涉及在平均场阶段内导出上界,用于评估这些图神经网络的泛化误差。我们建立了收敛速度为 $O (1/n)$ 的上界,其中 $n$ 为图样本数量。这些上界在具有挑战性的过度参数化阶段为网络在未知数据上的性能提供了理论保证,并且总体上有助于我们对它们性能的理解。
Feb, 2024
本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的 min(L2)-norm 过拟合解的泛化性能,并显示随着神经元数目 p 的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双峰现象” 的特征。
Mar, 2021
本文通过神经切向核将大型神经网络连接到核方法,探讨了初始化会导致神经网络输出函数在期望附近产生有限大小的随机波动,影响分类的广义误差。我们最终的分析表明,在计算限制条件下,使用几个中间大小的网络,略高于阈值点,对它们的输出求平均,可以获得最小的分类误差。
Jan, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019