通过学习两层的过参数化神经网络在使用Leaky ReLU激活函数的情况下,为SGD进行了优化和泛化的保证,具有独立于网络规模的泛化保证。
Oct, 2017
本文通过分析神经网络在超参数化情况下的学习理论,证明了神经网络能够通过SGD算法简单地学习某些重要的概念并且样本复杂度几乎独立于网络参数的数量。此外,本文还建立了一个神经网络的二次近似概念,并将其与如何逃离鞍点的SGD理论联系起来。
Nov, 2018
通过算法依赖的综合误差界推导,论文解释了过度参数化的深度神经网络在合适的随机初始化下,使用梯度下降法可以获得任意小的泛化误差。
Feb, 2019
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
通过实验结果,揭示了现存深度学习的多种基于均匀收敛理论的泛化界都是数值较大,因而引起了人们的质疑。而对于使用GD训练的超参数线性分类器和神经网络,即使我们考虑GD的隐式偏差,两边的均匀收敛都无法解释泛化,使得基于均匀收敛的泛化界失去了其解释能力。
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型(NTRF)来限制泛化误差,并建立了神经切向内核(NTK)的联系。
May, 2019
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
本文提出了一种通过梯度下降法训练 ReLU / Leaky ReLU 模型的方法,以实现两层和多层神经网络的节点专业化,证明了在适当的数据集和网络间条件下,该模型可实现特定形式的数据增强,获得固定大小的样本集,并展现出神经元节点的最小化分歧、所需最低的梯度量级和训练阶段中的归纳偏差。
Sep, 2019
本研究探讨了在过度参数化的深度神经网络中,当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时,通过(随机)梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外,我们还构建了深层ReLU网络的学习保证,使得网络宽度对n和ϵ的对数具有良好保证。
Nov, 2019
研究无限深度和无限宽度下Residual神经网络中梯度下降和凸优化的等效性,得出当神经网络足够大时,ResNet的训练可以得到几乎没有误差的近似解决方案。
May, 2021