记忆化 VS 泛化：量化自然语言处理性能评估中的数据泄漏

ACLFeb, 2021

记忆化 VS 泛化：量化自然语言处理性能评估中的数据泄漏

Memorization vs. Generalization: Quantifying Data Leakage in NLP Performance Evaluation

Aparna Elangovan, Jiayuan He, Karin Verspoor

TL;DR利用公共数据集来评估自然语言处理（NLP）中最先进方法的有效性和普适性时，训练和测试数据集之间的重叠会导致结果被高估，为了评估这些方法在实际场景中的性能，我们发现在用于评估 NLP 任务的几个公开数据集中，存在训练数据泄漏到测试数据中的情况，对此进行研究以评估泄漏对模型记忆与泛化能力的影响。

Abstract

public datasets are often used to evaluate the efficacy and generalizability of state-of-the-art methods for many tasks in natural language processing (NLP). However, the presence of overlap between the train and

public datasets natural language processing train and test datasets overlap leakage of training data model's ability to memorize vs generalize

发现论文，激发创造

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

大型语言模型中实体级记忆的量化与分析

大型语言模型通过精心设计的提示可以提取出其训练数据，这也带来了隐私风险。为了评估潜在的隐私风险，需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆，并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示，语言模型在实体级别上具有较强的记忆能力，并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎，采用记忆减轻技术以防止隐私侵犯。

Aug, 2023

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

机器学习中的记忆化

在这项研究中，我们统一了关于机器学习中记忆化的定义和观点，讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响，并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后，我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。

Nov, 2023

预训练语言模型中的记忆与泛化

本研究通过研究先进的预训练语言模型在嘈杂和低资源环境下的一般化和记忆能力，发现这些模型的训练对标签噪声几乎没有影响，但并不适用于低资源任务，而基于原型网络的扩展则能提高识别低资源命名实体时的性能。

Apr, 2021

数据污染：从记忆到利用

本研究根据预训练语言模型在联合语料库上进行分析，发现在一些情况下存在信息的利用，但在其他情况下，模型只是纯粹地记住了数据，但并没有利用学到的知识，这两种情况受到了多重因素的影响，如污染数据的数量和模型的大小，在区分语言理解和数据利用方面，对于大规模的互联网语料库的分析具有重要意义。

Mar, 2022

语言模型防止机械背诵，误导隐私保障

通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题，阐述了训练数据的记忆问题与风险，并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。

Oct, 2022

实体和关系抽取中的情境化和泛化

本文主要研究了最新的自然语言处理技术中，神经网络和语言模型在命名实体识别和关系抽取方面的应用以及它们在训练过程中面临的一些挑战。我们发现，预训练的语言模型对发现未曾见过的命名实体表现良好，但对于未曾见过的关系则有待加强，因此模型的理解能力仍存在提升空间。

Jun, 2022

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023