模型吸附攻击：针对 LLMs 的提取攻击

Sep, 2023

模型吸附攻击：针对 LLMs 的提取攻击

Model Leeching: An Extraction Attack Targeting LLMs

Lewis Birch, William Hackett, Stefan Trawicki, Neeraj Suri, Peter Garraghan

TL;DRModel Leeching 是一种新颖的提取攻击，针对大型语言模型（LLMs），能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。我们通过从 ChatGPT-3.5-Turbo 提取任务能力来证明我们攻击的有效性，精确匹配相似度达到 73%，并且 SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%，仅需 $50 的 API 成本。我们进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性，当应用于 ChatGPT-3.5-Turbo 时攻击成功率增加了 11%。

Abstract

model leeching is a novel extraction attack targeting large language models (LLMs), capable of distilling →

model leeching large language models extraction attack task-specific knowledge adversarial attack

发现论文，激发创造

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

教授语言模型如何钓鱼：从中窃取私人信息

本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击，可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息（PII），例如信用卡号码，攻击成功率高达 10%，有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集，对用户数据的结构仅具有模糊的先验假设。

Mar, 2024

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

针对图神经网络的链接窃取攻击的大型语言模型

利用大型语言模型在图神经网络中进行链接窃取攻击，通过多数据集微调实现攻击性能的显著提升，使得链接窃取攻击更适用于实际场景。

Jun, 2024

ZeroLeak：使用 LLMs 进行可扩展和成本效益边信道补丁

通过使用大型语言模型在生成补丁方面具有成本效益和可扩展性，本研究探索了大型语言模型用于生成具有微架构侧信道泄露的易受攻击代码的潜力.

Aug, 2023

迫使他们坦白！从（生产）LLM 中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到 92％，速度快 10 到 20 倍，对编码任务也适用。

Dec, 2023

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019