身份危机:极端过参数化下的记忆和泛化
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
本文提出了对于自然数据分布来说,必须要对标签进行记忆才能达到接近最优的泛化误差的第一概念解释和理论模型。该模型支持最近几项实证研究的结果,发现对于长尾子群分布的数据采样,标签的记忆是必要的,而图像和文本数据也被证明是长尾的。我们的研究不仅可能量化在学习过程中限制记忆的代价,而且还能解释隐私和模型压缩对不同子组的影响不同的不同效应。
Jun, 2019
本文通过对 ResNet,Inception 和 VGG 等模型的实验验证了相干梯度假设,并提出了具有可扩展性的抑制弱梯度方向的方法,这是首次令当代的监督学习提供令人信服的概括能力证据。
Mar, 2020
研究表明,深度神经网络的学习偏差会在训练的后期阶段出现第二次下降,其高频分量也会因此减少,导致测试误差的第二次下降,而网络的频谱可以用于指示测试误差的第二次下降。
Apr, 2020
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
研究表明,深度学习模型具有记忆整个训练集的倾向,通过对对抗训练(AT)中记忆效应的探索,揭示了模型容量、收敛、泛化和特别是对抗性训练模型的鲁棒过拟合等问题,提出了一种减缓鲁棒过拟合的算法,并通过各种数据集上的广泛实验验证了该算法的有效性。
Jun, 2021
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
通过探索不同类型的过拟合,本研究聚焦于自然模式,发现深度神经网络中的过度记忆现象并提出了一种名为“干扰过度记忆”的框架,通过移除或增加高置信度的自然模式来综合地减轻不同类型的过拟合,实验证明该方法在各种训练范式中有效。
Oct, 2023
深度学习中的稳健泛化是一个重大挑战,特别是当可训练参数的数量非常大时。为了应对这一挑战,我们研究了一种可解释模型,通过分析理解广义表示,并从纪念表示中轻松区分出来。通过在模量算术任务上训练两层神经网络来研究该模型。我们证明:网络在记忆损坏标签及同时实现 100% 泛化的情况下是可能的;记忆神经元可以被识别和修剪,降低损坏数据的准确性,提高未损坏数据的准确性;正则化方法(如权重衰减、dropout 和 BatchNorm)会在优化过程中强制网络忽略损坏数据,在未损坏数据集上达到 100% 的准确性;并且这些正则化方法的效果是可以“机械解释”的:权重衰减和 dropout 强制所有神经元学习广义表示,而 BatchNorm 降低记念神经元的输出,并放大广义神经元的输出。最后,我们展示了在正则化的情况下,训练动态包含两个连续阶段:首先,在网络经历“领悟”动态过程中,达到高训练和测试准确性;第二,它通过将记忆表示逐渐抹除,从 100% 的训练准确性骤降到 100 (1-ξ)%。
Oct, 2023