神经网络可否进行本地化记忆?
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
研究神经网络在单分类任务训练中的学习动态,发现在缺乏明显分布偏移的数据情况下,存在相关遗忘现象,某些样例更容易被遗忘,而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。
Dec, 2018
该论文分析了神经网络模型对个别实例的处理方式,通过一致性得分来表征模型的预期准确度,并使用采样自数据分布的不同大小的训练集对多个数据集中的个别实例进行了实证估计,从而确定模型处理模式与模式的一致性,该方法可应用于分析深度学习系统中的过分拟合问题。
Feb, 2020
本文通过对 ResNet,Inception 和 VGG 等模型的实验验证了相干梯度假设,并提出了具有可扩展性的抑制弱梯度方向的方法,这是首次令当代的监督学习提供令人信服的概括能力证据。
Mar, 2020
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
研究表明,深度学习模型具有记忆整个训练集的倾向,通过对对抗训练(AT)中记忆效应的探索,揭示了模型容量、收敛、泛化和特别是对抗性训练模型的鲁棒过拟合等问题,提出了一种减缓鲁棒过拟合的算法,并通过各种数据集上的广泛实验验证了该算法的有效性。
Jun, 2021
本文利用三种不同的NLP任务来验证长尾理论是否成立,实验结果表明,对于具有代表性的训练实例进行记忆比任意剔除训练实例更具有影响力,同时,还开发并实现了内部原因归因方法,具备较高程度的可信度。
Mar, 2022
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上ResNet的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023
我们研究了语言模型中记忆和背诵整个段落时使用的权重和机制是否可以被定位,我们发现记忆分布在多个层和模型组件中,而记忆段落的渐变具有可辨别的空间模式,较低模型层的渐变比非记忆示例的渐变更大。此外,只需通过微调高渐变权重即可取消对记忆示例的学习。我们定位了一个似乎特别参与段落记忆的低层注意头。该注意头主要关注在语料库级别的单字分布中最不频繁的独特罕见标记。此外,我们通过扰动标记并测量解码中引起的变化来研究记忆化在前缀中的定位。前缀中的几个独特标记往往会破坏整个延续。总体而言,记忆化延续不仅更难取消学习,也更难破坏。
Mar, 2024
本研究解决了在自然语言分类任务中记忆发生的位置这一问题,挑战了现有的理论观点。通过探索12个任务并运用4种记忆定位技术,发现记忆是一个渐进的过程而非局部化的,并且与具体任务相关,提供了对“优先概括,后续记忆”假设的新视角。
Aug, 2024