从（生产）语言模型中可扩展地提取训练数据

Nov, 2023

从（生产）语言模型中可扩展地提取训练数据

Scalable Extraction of Training Data from (Production) Language Models

Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper...

TL;DR本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Abstract

This paper studies extractable memorization: training data that an adversary can efficiently extract by querying a machine learning model

extractable memorization adversary machine learning model divergence attack alignment techniques

发现论文，激发创造

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

预训练语言模型中的训练数据提取：综述

本研究首次对预训练语言模型（PLMs）的训练数据抽取问题进行综述，回顾预备知识并提出多种记忆定义的分类，总结攻击和防御方法，详细介绍几项定量研究的实证结果，并在此基础上提出未来的研究方向。

May, 2023

通过提示微调控制大型语言模型中已记忆数据的提取

本文采用提示调参的方法控制大型语言模型的记忆内容的提取率，通过基于 GPT-Neo 家族模型的公共基准测试，展示了我们的攻击和防御策略的有效性，实现了相对于基线的提取率增加和减少，最多可以相对于基线降低 97.7% 的提取率，附加的困惑度增加了 16.9%。

May, 2023

大型语言模型中的记忆痕迹对于代码的影响

大语言模型在编程领域备受瞩目，然而其数据源可能面临被攻击者利用数据提取攻击进行窃取的风险，本研究对大语言模型进行了代码和自然语言两方面的对比研究并发现其对数据提取攻击存在漏洞，建议进一步研究并采取相应措施来缓解此问题。

Dec, 2023

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

Sesame Street 上的盗贼！BERT-based API 的模型提取

该研究探讨了自然语言处理中模型提取的问题，结果表明，在具有查询访问权限的情况下，攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本，通过使用预先训练好的 NLP 模型，使用转移学习的方法，他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。

Oct, 2019

训练语言模型进行数据提取的技巧

本文旨在通过研究和基准测试改进训练数据提取的技巧，提出了一种改进的训练数据提取算法，并基于 GPT-Neo 1.3B 对算法进行了评估，实验结果表明，该算法在大多数情况下优于基线模型。

Feb, 2023