自然语言处理记忆化的实证研究
本文提出了对于自然数据分布来说,必须要对标签进行记忆才能达到接近最优的泛化误差的第一概念解释和理论模型。该模型支持最近几项实证研究的结果,发现对于长尾子群分布的数据采样,标签的记忆是必要的,而图像和文本数据也被证明是长尾的。我们的研究不仅可能量化在学习过程中限制记忆的代价,而且还能解释隐私和模型压缩对不同子组的影响不同的不同效应。
Jun, 2019
这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
大语言模型(LLMs)在各个领域展示了前所未有的性能,但其特殊行为之一 —— 记忆化 —— 仍缺乏解释,本研究通过多个角度全面探讨记忆化现象及其动态,并通过实验证实了模型大小、连续大小和上下文大小之间的记忆化关系,以及不同记忆化得分下句子的嵌入分布和解码动态,揭示了当模型开始生成记忆化或非记忆化句子时的边界效应,最后通过训练 Transformer 模型预测不同模型的记忆化,证明了通过上下文预测记忆化的可行性。
May, 2024
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子的唯一标识符。这些发现有助于深入了解模型变大所带来的真正好处。
May, 2022
本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法,进行神经语言模型的训练数据筛选,以减少其对训练数据中的敏感信息的记忆,并探究其训练样本中的对抗性记忆,从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。
Dec, 2021
该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响,重现了重复次数对记忆序列遗忘概率的对数标度关系,并发现即使没有后续接触,经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上,这对数据隐私具有挑战性。为此,我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。
Jun, 2024
利用公共数据集来评估自然语言处理(NLP)中最先进方法的有效性和普适性时,训练和测试数据集之间的重叠会导致结果被高估,为了评估这些方法在实际场景中的性能,我们发现在用于评估 NLP 任务的几个公开数据集中,存在训练数据泄漏到测试数据中的情况,对此进行研究以评估泄漏对模型记忆与泛化能力的影响。
Feb, 2021
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。
Oct, 2023
该研究提出了一种新的、有原则的、高效的方法来估计语言模型中的记忆化,该方法利用经济学中的差异法设计,通过在训练过程中观察模型在一小部分实例上的行为,刻画了模型的记忆化特征,并发现较大模型的记忆化更强、更持久,受数据顺序和学习率的影响,并且较大模型的记忆化趋势可以从较小模型中预测。
Jun, 2024