该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
本研究结合随机神经网络和张量程序的概念,研究了神经网络的收敛性和梯度动态性,在多种不同体系下,从而表明了该框架不仅可以引导更强的高斯过程的设计,而且还可以深入理解现代架构中的SGD动态。
Feb, 2019
研究采用随机梯度下降法训练的神经网络,通过对每一次迭代的训练标签进行独立噪声扰动,得到一个隐式正则化项,从而驱动网络向简单模型发展,并以矩阵感知、一维数据下的两层ReLU网络训练以及单数据点下的两层sigmoid激活网络训练等三个简单场景进行了阐述。
Apr, 2019
探讨在有噪声标签的情况下,过度参数化的深度神经网络的正则化方法,其中比较有效的包括参数与初始化之间的距离和为每个训练示例添加一个可训练的辅助变量,实验结果表明这些方法能够有效提高模型的泛化性,并且泛化误差的上界独立于网络的大小,可达到无噪声标签情况下的水平。
May, 2019
使用一种物理学方法对深度学习进行研究,通过重整化群、Feynman图和副本构造了一个多功能场论形式体系用于分析高度超参数化情况下的深度学习,研究表明DNNs除了高度超参数化外,仍然具有解释性和预测性——偏向于简单函数。
Jun, 2019
该论文从神经切向核的角度研究了深度学习中深层残差网络相对于前馈网络的泛化性能优势,并给出了数字结果支持。
Feb, 2020
通过实验证明了核方法优于限制宽度的全连接神经网络,并且证实NNGP内核经常优于NT内核,但它们的性能都受到正则化的影响。此外,作者提出了使用 NNGP 和 NT 内核进行预测的最佳实践方法,并在 CIFAR-10 分类任务中取得了最优结果。
Jul, 2020
该论文通过对神经网络和它们的线性近似在不同任务上的行为进行系统比较,提供了强有力的实证证据来确定近似的实际有效性,发现网络并不总是表现优于其核近似,并揭示了性能差距很大程度上取决于网络架构、数据集大小和训练任务。此外,研究发现网络在训练过程中出现过拟合的原因是其核的演化。由此揭示了一种新的隐式偏差现象。
Jun, 2021
本文通过缩放定律的角度研究神经切向核(NTK)及其经验性变量,发现它们无法完全解释神经网络泛化的重要方面。通过实际设置,我们展示了有限宽度神经网络相对于其对应的经验和无穷NTK起始时具有显着更好的数据缩放指数,并证明了NTK方法在理解自然数据集上真实网络泛化的局限性。
Jun, 2022
研究稀疏神经活动如何影响具有修正线性单元激活的神经网络的一般化性能,提出神经网络高斯过程(NNGP)核,观察到在浅层时更稀疏的网络在各种数据集上优于非稀疏网络,并通过扩展现有的核-岭回归的一般化误差理论来验证此观察结果。
May, 2023