深度神经网络初始化引起的泛化误差类型
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
通过傅里叶分析,研究DNN训练的理论框架,解释了梯度下降法训练DNN经常赋予目标函数低频分量更高的优先级,小的初始化导致DNN具有良好的泛化能力,同时保留拟合任何函数的能力。这些结果进一步得到了DNN拟合自然图像、一维函数和MNIST数据集的实验证实。
Aug, 2018
本文研究了使用随机梯度下降(SGD)训练深度神经网络为什么会导致泛化误差不随网络参数数量恶化的问题,并提出一种基于给定随机初始化的有效模型容量的概念。作者通过实验证明了SGD训练的深度网络的模型容量实际上受限于从初始化开始的L2距离的隐式正则化,并提供理论论证来进一步强调了初始化相关的模型容量概念的必要性。然而此文留下了如何以及为什么对初始化距离进行正则化,以及它是否足以解释泛化的问题。
Jan, 2019
本文研究在深度神经网络的梯度优化中最具影响力的超参数选择之一——初始参数值的选择,分析了不同初始化方案的具体影响,证明了从正交组中绘制初始权重相对于具有独立同分布权重的标准高斯初始化会加速收敛,并且展示了如何通过基于动态等谱性的初始化原理初始化非线性网络以获得最佳效果。
Jan, 2020
探究基于核回归的可推广性误差,解释了以“简单函数”为特征的归纳偏差,并表明更多数据可能会损害推广能力,还研究了与无限宽深度神经网络相关的旋转不变内核的数学性质。
Jun, 2020
本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能,使用我们的方法可以改善不同数据集上的各种模型的泛化性能,并且最佳情况下可在这些任务上提供新的最先进性能。
Feb, 2022