训练语言模型进行数据提取的技巧

Feb, 2023

训练语言模型进行数据提取的技巧

Bag of Tricks for Training Data Extraction from Language Models

Weichen Yu, Tianyu Pang, Qian Liu, Chao Du, Bingyi Kang...

TL;DR本文旨在通过研究和基准测试改进训练数据提取的技巧，提出了一种改进的训练数据提取算法，并基于 GPT-Neo 1.3B 对算法进行了评估，实验结果表明，该算法在大多数情况下优于基线模型。

Abstract

With the advance of language models, privacy protection is receiving more attention. training data extraction is therefore of great import

training data extraction privacy protection language models text generation text ranking

发现论文，激发创造

文本分类中的隐私泄露问题：一种数据提取方法

对于文本分类模型，从生成型语言模型中提取训练数据的可行性存在争议，提出了一种利用模型评价概率的算法来提取部分文本的缺失标记，以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。

Jun, 2022

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

预训练语言模型中的训练数据提取：综述

本研究首次对预训练语言模型（PLMs）的训练数据抽取问题进行综述，回顾预备知识并提出多种记忆定义的分类，总结攻击和防御方法，详细介绍几项定量研究的实证结果，并在此基础上提出未来的研究方向。

May, 2023

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

通过提示微调控制大型语言模型中已记忆数据的提取

本文采用提示调参的方法控制大型语言模型的记忆内容的提取率，通过基于 GPT-Neo 家族模型的公共基准测试，展示了我们的攻击和防御策略的有效性，实现了相对于基线的提取率增加和减少，最多可以相对于基线降低 97.7% 的提取率，附加的困惑度增加了 16.9%。

May, 2023

SATML 语言模型数据提取挑战中针对 GPT-Neo 的有目标攻击

应用有针对性的数据提取攻击考察了 SATML2023 语言模型训练数据提取挑战，并通过两步骤的方法成功地从中提取了样本，其中第一步骤成功提取 69％的样本的后缀；接着，使用基于分类器的成员推断攻击对生成式进行检测，其 AutoSklearn 分类器在 10% 的误报率下达到了 0.841 的准确率，相对于基线提高了 34％，完整方法在 10％误报率下以 0.405 召回率得分，研究表明大型语言模型容易受到数据提取攻击，其隐私风险需要引起重视。

Feb, 2023

朝着更现实的提取攻击：一种对抗性视角

利用对语言模型的脆弱性，我们从对抗性的角度重新审视了提取攻击，发现即使对提示进行微小、不符合直觉的更改，或者针对较小的模型和旧的检查点，也可以将提取风险增加 2-4 倍。此外，仅依赖广泛接受的逐字匹配低估了提取信息的真实范围，我们提供了其他准确捕捉提取风险的方法。我们总结了数据去重，这是一种常见的缓解策略，并发现它虽然解决了一些记忆问题，但仍对真实的对手提取风险的升级具有脆弱性。我们的发现凸显了认识对手的真实能力以避免低估提取风险的必要性。

Jul, 2024

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

训练数据价值超你想象：一种简单有效的从训练数据中检索的方法

本文提出了一种简单的 REtrieving from the traINing datA (REINA) 方法，通过从训练数据中检索最相似的实例并与输入进行拼接来提高自然语言处理任务的性能，实验证明该方法在多个 NLU 和 NLG 任务中都能取得最先进的结果。

Mar, 2022

从微调和差分私有微调的 BERT 模型中提取命名实体的研究

本文研究从语言模型中提取个人信息风险，并探讨 Differentially Privacy 对 fine-tuned BERT 模型文本生成能力的影响，结果表明，BERT 不太可能泄露个人或隐私敏感的命名实体，并指出这些结果重要理解 BERT-based 服务易受到训练数据提取攻击的程度。

Dec, 2022