语言模型防止机械背诵，误导隐私保障

Oct, 2022

语言模型防止机械背诵，误导隐私保障

Preventing Verbatim Memorization in Language Models Gives a False Sense of Privacy

Daphne Ippolito, Florian Tramèr, Milad Nasr, Chiyuan Zhang, Matthew Jagielski...

TL;DR通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题，阐述了训练数据的记忆问题与风险，并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。

Abstract

Studying data memorization in neural language models helps us understand the risks (e.g., to privacy or copyright) associated with models

neural language models data memorization verbatim memorization bloom filters privacy

发现论文，激发创造

神经语言模型中的反事实记忆

本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法，进行神经语言模型的训练数据筛选，以减少其对训练数据中的敏感信息的记忆，并探究其训练样本中的对抗性记忆，从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。

Dec, 2021

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

预测文本语言模型的种植和减轻记忆内容

通过测试效用一系列隐私保护技术来缓解大型语言模型不经意地记忆保密训练数据的风险，实验表明，差分隐私有可靠的隐私保护效果，但是性能代价较大。

Dec, 2022

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

通过交替教学减少语言模型中意外记忆

提出了一种新的交替教学方法来减少语言模型在训练集中记忆罕见或独特序列而导致泄漏用户数据的现象，该方法采用多个教师模型对各自独立的训练集进行训练，并以教师模型预测结果作为学生模型的监督信号，实验结果表明这种方法达到了比其他方法更好的隐私保护效果，而当训练数据充足时对整体效果损失很小。

Oct, 2022

大型语言模型中实体级记忆的量化与分析

大型语言模型通过精心设计的提示可以提取出其训练数据，这也带来了隐私风险。为了评估潜在的隐私风险，需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆，并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显示，语言模型在实体级别上具有较强的记忆能力，并能够在部分泄露情况下重新生成训练数据。这些发现要求语言模型的训练者在模型记忆方面更加谨慎，采用记忆减轻技术以防止隐私侵犯。

Aug, 2023

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

机器学习中的记忆化

在这项研究中，我们统一了关于机器学习中记忆化的定义和观点，讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响，并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后，我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。

Nov, 2023