关于单个方向对泛化的重要性
通过对具有ReLU激活函数的一层神经网络的分析,我们发现神经网络具有良好的优化特性,其具有多样的单元没有虚假局部最小值,在满足“扩展特征矩阵”的最小奇异值足够大的条件下,可以使损失函数变得任意小。
Nov, 2016
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本研究通过对深度学习模型的多方面度量,特别是模型对输入扰动的敏感性度量,研究了大规模的、过度参数化的神经网络与小规模的夹杂网络的复杂度与泛化之间的紧张关系,并得出结论:训练的神经网络在其训练数据范围内更加鲁棒,这种鲁棒性与泛化能力有关联,而诸如数据扩增和修正线性单元等好的泛化因素会带来更强的鲁棒性。
Feb, 2018
本文研究了卷积神经网络(CNN)中个体单元对视觉识别的重要性。作者通过单元切除实验发现,单独切除某些单元会对某些特定类别的分类准确度造成重大影响,而单元属性如类别选择性和权重L1规范对整体准确度的影响却不明显。通过实验,我们证明了选择性高的单元对网络分类能力在单个类别层面上具有重要作用。
Jun, 2018
通过分析剪枝过程中的行为,我们发现剪枝的波动性(即剪枝后的测试准确性下降)可以提高泛化性能,这种“泛化稳定性交换”的现象出现在各种剪枝设置中,可能是因为剪枝类似于注入噪声的效果而导致正则化,从而产生泛化改进,这可以解释剪枝提高泛化和过度参数化网络高泛化性能的相容性。
Jun, 2019
本文探讨了神经网络架构的泛化能力,发现训练和泛化在整洁和结构化的数据集上很容易,在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间,本文证明了即使是常数宽度的神经网络,对于足够好的数据集也可以证明泛化。
Jun, 2019
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
评估深度学习模型在新颖数据上的泛化能力,通过对神经网络各层的性能评估,发现高分类准确性并不意味着高泛化能力,深层网络不总是最好的泛化模型,对模型不同层的泛化能力进行了探讨。
May, 2024