LLMs 下的敏感信息能够被删除吗？防御抽取攻击的目标

Sep, 2023

LLMs 下的敏感信息能够被删除吗？防御抽取攻击的目标

Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Attacks

Vaidehi Patil, Peter Hase, Mohit Bansal

TL;DR提出了攻击和防御框架用于直接删除模型权重中的敏感信息，研究表明即使使用先进的模型编辑方法，也很难真正从语言模型中删除敏感信息，并提供了一些防御方法来抵御抽取攻击。

Abstract

pretrained language models sometimes possess knowledge that we do not wish them to, including memorized personal information and knowledge that could be used to harm people. They can also output toxic or harmful text. To mitigate these safety and informational issues, we propose an att

pretrained language models sensitive information attack-and-defense framework model editing methods extraction attacks

发现论文，激发创造

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

Redactor：基于数据和个性化的抵抗推理攻击的防御

研究信息泄露的问题，提出了利用针对性误导生成来强化机器学习模型对推理攻击的鲁棒性，即通过插入新数据来稀释原数据，使用多个分类器的决策边界进行概率标注。

Feb, 2022

选择性遗忘：推进机器遗忘技术和语言模型评估

该研究旨在调查机器遗忘（MU），这是一个新兴领域，专注于解决神经模型意外保留个人或敏感数据的问题。本文介绍了一种新的方法，以实现语言模型内的精确选择性遗忘，并提出了两个创新的评估指标：敏感信息提取可能性（S-EL）和敏感信息记忆准确性（S-MA），用于衡量消除敏感信息的有效性。为了加强遗忘框架，提出了一种有效的敏感区域注释方法，包括在线和离线策略。在线选择机制利用语言概率得分确保计算效率，而离线注释则采用基于大型语言模型（LLMs）的强大两阶段过程。

Feb, 2024

利用后门维护我们的隐私

通过插入后门，我们提出了一种简单而有效的防御方法，以消除模型中的私人信息，特别是在文本编码器中，从而增强不经过过滤的网络爬取数据上的个人隐私。

Oct, 2023

机器遗忘的重构攻击：简单模型易受攻击

机器遗忘是出于对数据自治的渴望：一个人可以要求使其数据在部署模型中的影响消失，并且这些模型应该更新，就像重新训练而没有该人的数据一样。然而，我们展示出这些更新与个人之间会暴露出高精度的重构攻击，这使得攻击者可以完整地恢复其数据，即使原始模型如此简单，以至于隐私风险可能不会引起担忧。我们展示了如何对线性回归模型中删除的数据点发起近乎完美的攻击。然后，我们将我们的攻击泛化到其他损失函数和架构，并在范围广泛的数据集上实证证明了我们的攻击的有效性（涵盖表格数据和图像数据）。我们的工作强调了即使对于极其简单的模型类别，当个人可以要求在模型中删除他们的数据时，隐私风险仍然是显著的。

May, 2024

REVS：通过词汇空间中的排名编辑来消除语言模型中的敏感信息

通过 REVS 方法，我们可以修改大型语言模型（LLMs）中的少量神经元，从而去除敏感信息、抵御提取攻击，并保持模型的完整性。

Jun, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

遗忘机器学习

该研究论文详细介绍了新颁布的 GDPR 法对机器学习模型隐私保护的重要性，针对深度神经网络模型容易遭受信息泄漏攻击的问题提出了 Unlearning 和 Amnesiac Unlearning 两种数据删除方法，实验证明这两种方法可行、安全。

Oct, 2020

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023