SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

Feb, 2023

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction Challenge

Ali Al-Kaswan, Maliheh Izadi, Arie van Deursen

TL;DR应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Abstract

Previous work has shown that large language models are susceptible to so-called data extraction attacks. This allows an attacker to extract a sample that was contained in the training data, which has massive priv

large language models data extraction attacks privacy implications targeted attacks membership inference attack

发现论文，激发创造

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

通过提示微调控制大型语言模型中已记忆数据的提取

本文采用提示调参的方法控制大型语言模型的记忆内容的提取率，通过基于 GPT-Neo 家族模型的公共基准测试，展示了我们的攻击和防御策略的有效性，实现了相对于基线的提取率增加和减少，最多可以相对于基线降低 97.7% 的提取率，附加的困惑度增加了 16.9%。

May, 2023

预训练语言模型中的训练数据提取：综述

本研究首次对预训练语言模型（PLMs）的训练数据抽取问题进行综述，回顾预备知识并提出多种记忆定义的分类，总结攻击和防御方法，详细介绍几项定量研究的实证结果，并在此基础上提出未来的研究方向。

May, 2023

MEGEX：基于梯度的可解释人工智能无数据模型提取攻击

本文提出了 MEGEX，针对一种梯度可解释人工智能的数据自由模型提取攻击。攻击者使用解释结果来训练生成模型以减少查询次数，可以在不准备输入数据的情况下成功窃取训练好的模型。实验表明，在 SVHN 和 CIFAR-10 数据集上，给定 200 万和 2000 万个查询，我们提出的方法可以重构高准确度的模型，分别是受害模型准确度的 0.97 倍和 0.98 倍，这暗示着模型的可解释性和难以窃取之间存在折衷。

Jul, 2021

MeaeQ：高效查询挂载模型抽取攻击

我们提出了 MeaeQ（具有高效查询的模型提取攻击），一种简单而有效的方法来解决自然语言处理（NLP）中的模型提取攻击问题。通过结合 API 服务信息，我们利用零样本序列推理分类器从公共文本语料库中过滤任务相关数据，而不是使用问题特定领域的数据集。此外，我们使用基于聚类的数据减少技术来获取攻击的查询的代表性数据。我们在四个基准数据集上进行的大量实验证明，MeaeQ 在需要更少查询的同时，与受攻击模型具有更高的功能相似性。

Oct, 2023

模型吸附攻击：针对 LLMs 的提取攻击

Model Leeching 是一种新颖的提取攻击，针对大型语言模型（LLMs），能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。我们通过从 ChatGPT-3.5-Turbo 提取任务能力来证明我们攻击的有效性，精确匹配相似度达到 73%，并且 SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%，仅需 $50 的 API 成本。我们进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性，当应用于 ChatGPT-3.5-Turbo 时攻击成功率增加了 11%。

Sep, 2023

训练语言模型进行数据提取的技巧

本文旨在通过研究和基准测试改进训练数据提取的技巧，提出了一种改进的训练数据提取算法，并基于 GPT-Neo 1.3B 对算法进行了评估，实验结果表明，该算法在大多数情况下优于基线模型。

Feb, 2023

评估语言模型中的隐私风险：基于概括任务的案例研究

大型语言模型在自然语言处理领域取得了卓越的性能，但存在信息泄露的担忧。本研究关注总结任务，并研究了成员推断攻击：在对模型的 API 拥有黑盒访问权限的情况下，能否确定样本是否属于训练数据。我们利用文本相似性和模型对文档修改的抵抗力作为潜在的攻击信号，并评估它们在广泛使用的数据集上的有效性。我们的结果表明，总结模型存在泄露数据成员身份的风险，即使参考摘要不可用。此外，我们讨论了几种保护总结模型免受成员推断攻击的安全防护措施，并讨论了隐私与效用之间的固有权衡。

Oct, 2023