通过离开一个样本集合在语言模型中遗忘私密文本序列

Sep, 2023

通过离开一个样本集合在语言模型中遗忘私密文本序列

Forgetting Private Textual Sequences in Language Models via Leave-One-Out Ensemble

Zhe Liu, Ozlem Kalinli

TL;DR利用教师 - 学生框架和新的留一出集成方法，我们在语言模型中删除个人信息，在隐私与实用性之间实现卓越的平衡。

Abstract

Recent research has shown that language models have a tendency to memorize rare or unique token sequences in the training corpus. After deploying a model, practitioners might be asked to delete any personal information<

language models memorization personal information privacy-utility trade-offs teacher-student framework

发现论文，激发创造

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

通过交替教学减少语言模型中意外记忆

提出了一种新的交替教学方法来减少语言模型在训练集中记忆罕见或独特序列而导致泄漏用户数据的现象，该方法采用多个教师模型对各自独立的训练集进行训练，并以教师模型预测结果作为学生模型的监督信号，实验结果表明这种方法达到了比其他方法更好的隐私保护效果，而当训练数据充足时对整体效果损失很小。

Oct, 2022

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

选择性遗忘：推进机器遗忘技术和语言模型评估

该研究旨在调查机器遗忘（MU），这是一个新兴领域，专注于解决神经模型意外保留个人或敏感数据的问题。本文介绍了一种新的方法，以实现语言模型内的精确选择性遗忘，并提出了两个创新的评估指标：敏感信息提取可能性（S-EL）和敏感信息记忆准确性（S-MA），用于衡量消除敏感信息的有效性。为了加强遗忘框架，提出了一种有效的敏感区域注释方法，包括在线和离线策略。在线选择机制利用语言概率得分确保计算效率，而离线注释则采用基于大型语言模型（LLMs）的强大两阶段过程。

Feb, 2024

通过对语言模型中的序列遗忘进行近似优化参数保护隐私

我们提出了一种名为 “POP” 的新型遗忘方法，通过对参数应用最佳梯度更新，从预训练的语言模型中有效地遗忘目标令牌序列，实现隐私保护，具有出色的遗忘后保留性能，优于现有技术水平。

Jun, 2024

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

去重训练数据减缓语言模型的隐私风险

该研究显示，大型语言模型在面对隐私攻击时，其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系，而消除重复数据的方法可以显著提高语言模型的隐私安全性。

Feb, 2022

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024