研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型 (NTRF) 来限制泛化误差,并建立了神经切向内核 (NTK) 的联系。
May, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
本研究探讨了在过度参数化的深度神经网络中,当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时,通过(随机)梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外,我们还构建了深层 ReLU 网络的学习保证,使得网络宽度对 n 和 ϵ 的对数具有良好保证。
Nov, 2019
最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度,提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。
Oct, 2023
研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
Nov, 2018
通过学习两层的过参数化神经网络在使用 Leaky ReLU 激活函数的情况下,为 SGD 进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
通过分析过度参数化的深层残差网络,我们证明了梯度下降学习的网络类是整个神经网络函数类的一个子集,这个子集足够大以保证小的训练误差和测试误差,并且此类网络具有小的泛化差距,这提供了残差网络优于非残差网络的解释。
Oct, 2019
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
研究了使用梯度下降法在过度参数化的双层神经网络中训练,证明了在足够过度参数化的条件下,GD 方法可以近似地将振幅算子的幂应用于生成响应 / 标签的基础 / 目标函数 $f^*$,并且提供了使用低秩逼近来减少经验风险的线性速率的足够条件,介绍了适用于球面上的多项式的一般结果的应用
该论文研究了深度神经网络中过拟合的问题,证明了使用特定的损失函数时神经网络的收敛性及性能,提出了一种实用的判断不同零最小化点泛化性能的方法。
Jun, 2018