特殊字符攻击：朝向大型语言模型的可扩展训练数据提取

May, 2024

特殊字符攻击：朝向大型语言模型的可扩展训练数据提取

Special Characters Attack: Toward Scalable Training Data Extraction From Large Language Models

Yang Bai, Ge Pei, Jindong Gu, Yong Yang, Xingjun Ma

TL;DR大语言模型（LLM）在各种任务中取得了显著的表现。本文进一步展示了特定特殊字符或其与英文字母的组合作为更强的记忆触发器，导致更严重的数据泄漏。通过提出一个简单而有效的特殊字符攻击（SCA），我们验证了该攻击对最先进的 LLM 的高效性。该攻击能泄露多样化的训练数据，例如代码语料库、网页和个人可识别信息，并且有时会产生不间断的输出作为副产品。进一步地，我们展示了通过检查泄漏数据可以揭示训练数据语料库的组成，这是预训练高性能 LLM 的一项关键信息。我们的工作有助于理解 LLM 对特殊字符的敏感性，并确定改进的潜在领域。

Abstract

large language models (LLMs) have achieved remarkable performance on a wide range of tasks. However, recent studies have shown that LLMs can memorize training data and simple repeated tokens can trick the model t

large language models data leakage special characters training data improvement

发现论文，激发创造

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

大型语言模型中的记忆痕迹对于代码的影响

大语言模型在编程领域备受瞩目，然而其数据源可能面临被攻击者利用数据提取攻击进行窃取的风险，本研究对大语言模型进行了代码和自然语言两方面的对比研究并发现其对数据提取攻击存在漏洞，建议进一步研究并采取相应措施来缓解此问题。

Dec, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023