REVS：通过词汇空间中的排名编辑来消除语言模型中的敏感信息

Jun, 2024

REVS：通过词汇空间中的排名编辑来消除语言模型中的敏感信息

REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space

Tomer Ashuach, Martin Tutek, Yonatan Belinkov

TL;DR通过 REVS 方法，我们可以修改大型语言模型（LLMs）中的少量神经元，从而去除敏感信息、抵御提取攻击，并保持模型的完整性。

Abstract

large language models (LLMs) risk inadvertently memorizing and divulging sensitive or personally identifiable information (PII) seen in training data, causing privacy concerns. Current approaches to address this

large language models privacy concerns revs model editing extraction attacks

发现论文，激发创造

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

LLMs 下的敏感信息能够被删除吗？防御抽取攻击的目标

提出了攻击和防御框架用于直接删除模型权重中的敏感信息，研究表明即使使用先进的模型编辑方法，也很难真正从语言模型中删除敏感信息，并提供了一些防御方法来抵御抽取攻击。

Sep, 2023

DEPN: 检测和编辑预训练语言模型中的隐私神经元

为了有效降低预训练语言模型中的数据泄漏风险，我们提出了一个名为 DEPN 的框架来检测和编辑预训练语言模型中的隐私神经元，部分受到知识神经元和模型编辑的启发。在 DEPN 中，我们引入了一种称为隐私神经元探测器的新方法，来定位与私人信息相关的神经元，并通过将它们的激活设置为零来编辑这些检测到的隐私神经元。此外，我们还提出了一种批处理方式的隐私神经元聚合器来去除隐私信息。实验结果表明，我们的方法能够显著并有效地降低私人数据泄漏的风险，而不会损害模型的性能。此外，我们从多个角度（包括模型大小、训练时间、提示、隐私神经元分布）经验性地展示了模型记忆和隐私神经元之间的关系，从而证明了我们方法的稳健性。

Oct, 2023

选择性遗忘：推进机器遗忘技术和语言模型评估

该研究旨在调查机器遗忘（MU），这是一个新兴领域，专注于解决神经模型意外保留个人或敏感数据的问题。本文介绍了一种新的方法，以实现语言模型内的精确选择性遗忘，并提出了两个创新的评估指标：敏感信息提取可能性（S-EL）和敏感信息记忆准确性（S-MA），用于衡量消除敏感信息的有效性。为了加强遗忘框架，提出了一种有效的敏感区域注释方法，包括在线和离线策略。在线选择机制利用语言概率得分确保计算效率，而离线注释则采用基于大型语言模型（LLMs）的强大两阶段过程。

Feb, 2024

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024

学习何时（不）信任语言模型：一个以隐私为中心的自适应模型感知方法

基于检索增强的大型语言模型在各种 NLP 任务中取得了显着的成功。然而，检索过程提供的知识并不总是有助于提高模型的预测能力。为了节省检索成本，先前的工作通过分析语言模型的预训练数据来决定何时执行 / 跳过检索。然而，这些面向数据的方法存在隐私风险和内存限制问题。本文提出基于标记嵌入的模型感知方法，以更安全直接的方式判断是否需要执行检索，同时避免访问预训练数据所带来的隐私风险，并简化了模型预训练过程中数据的保存要求。大量实验证明了我们的模型感知方法的优越性。

Apr, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024