预训练语言模型中的训练数据提取：综述

ACLMay, 2023

预训练语言模型中的训练数据提取：综述

Training Data Extraction From Pre-trained Language Models: A Survey

Shotaro Ishihara

TL;DR本研究首次对预训练语言模型（PLMs）的训练数据抽取问题进行综述，回顾预备知识并提出多种记忆定义的分类，总结攻击和防御方法，详细介绍几项定量研究的实证结果，并在此基础上提出未来的研究方向。

Abstract

As the deployment of pre-trained language models (PLMs) expands, pressing security concerns have arisen regarding the potential for malicious extraction of training data, posing a threat to →

pre-trained language models training data extraction data privacy natural language processing security

发现论文，激发创造

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

大型预训练语言模型是否泄露了你的个人信息？

本文分析了预训练语言模型（PLMs）是否容易泄漏个人信息，并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱，因此攻击者提取特定个人信息的风险较低，希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险，并为使 PLMs 更加安全带来新的见解。

May, 2022

数据污染：从记忆到利用

本研究根据预训练语言模型在联合语料库上进行分析，发现在一些情况下存在信息的利用，但在其他情况下，模型只是纯粹地记住了数据，但并没有利用学到的知识，这两种情况受到了多重因素的影响，如污染数据的数量和模型的大小，在区分语言理解和数据利用方面，对于大规模的互联网语料库的分析具有重要意义。

Mar, 2022

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023

知识增强的预训练语言模型：综述

本文论述了预训练语言模型（PLM）的重要性以及知识增强型预训练语言模型（KE-PLMs）的研究现状，探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。

Oct, 2021

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

训练语言模型进行数据提取的技巧

本文旨在通过研究和基准测试改进训练数据提取的技巧，提出了一种改进的训练数据提取算法，并基于 GPT-Neo 1.3B 对算法进行了评估，实验结果表明，该算法在大多数情况下优于基线模型。

Feb, 2023

文本分类中的隐私泄露问题：一种数据提取方法

对于文本分类模型，从生成型语言模型中提取训练数据的可行性存在争议，提出了一种利用模型评价概率的算法来提取部分文本的缺失标记，以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。

Jun, 2022