Text Revealer: 通过模型反演攻击对 Transformers 进行私密文本重建

Sep, 2022

Text Revealer: 通过模型反演攻击对 Transformers 进行私密文本重建

Text Revealer: Private Text Reconstruction via Model Inversion Attacks against Transformers

Ruisi Zhang, Seira Hidano, Farinaz Koushanfar

TL;DR本文提出了一种名为 Text Revealer 的模型反演攻击方法，可有效重建训练数据中的私密文本，研究表明该方法对不同文本长度的数据集均有效。

Abstract

text classification has become widely used in various natural language processing applications like sentiment analysis. Current applications often use large transformer-based language models to classify input texts. However, there is a lack of systematic study on how much →

text classification model inversion attack private information transformers gpt-2

发现论文，激发创造

神秘揭露者：针对深度神经网络的生成模型反演攻击

本文介绍了一种新型攻击方法 —— 生成模型反演攻击，它可以显著地提高逆转深度神经网络的准确率，攻击者使用部分公共信息学习分布先验，引导逆转过程，并且通过实验证明了差分隐私在该攻击下的防御效果有限。

Nov, 2019

文本嵌入揭示的信息不亚于文本本身

文本嵌入可以泄露原始文本的多少私人信息？我们调查了嵌入反演的问题，重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决：生成文本，当重新嵌入时，接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好，但一个多步骤的方法，通过迭代修正和重新嵌入文本，能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入，并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息（全名）。

Oct, 2023

大型语言模型中的嵌入信息泄漏

该研究探讨了大型语言模型在数据隐私方面引发的关切，并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本，并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好，并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性，并为增强此类环境中的安全协议提供了有价值的见解。

May, 2024

可迁移性嵌入反转攻击：揭示文本嵌入的隐私风险，无需模型查询

研究了与文本嵌入相关的隐私风险，重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法，利用替代模型模拟受害模型的行为，使攻击者能够从文本嵌入中推断敏感信息，从而揭示了嵌入技术中潜在的隐私漏洞，强调了加强安全措施的必要性。

Jun, 2024

基于遮蔽语言建模的可逆文本数据隐藏通用框架

本文提出了一个基于掩蔽语言模型的通用框架，将秘密信息嵌入给定的覆盖文本中，嵌入的信息和原始覆盖文本可以从标记文本中完美地恢复。实验结果表明，所提出的方法具有良好的安全性和语义质量，可应用于许多领域，包括信息隐藏和自然语言处理。

Jun, 2022

Decepticons：损坏变形金刚在语言模型联邦学习中侵犯隐私

提出了一种攻击机制可在 Federated Learning 中，通过恶意参数向量直接攻击文本应用程序，利用 Transformer 架构和标记嵌入技术提取标记和位置嵌入来检索高保真文本，使得历史上抵抗隐私攻击的文本 Federated Learning 变得比以前更加脆弱。

Jan, 2022

探索机器学习和基于 Transformer 的方法用于欺骗性文本分类：一项比较分析

该研究通过比较分析机器学习和基于 Transformer 的方法在欺诈性文本分类中的效果，使用包含欺诈性和非欺诈性文本的标记数据集进行训练和评估，并对不同方法的性能指标进行了广泛实验比较，揭示了机器学习和基于 Transformer 的方法在欺诈性文本分类中的优势和局限性，帮助研究人员和从业者在处理欺诈内容时做出明智决策。

Aug, 2023

知识增强的分布式模型反演攻击

本文提出了一种基于 Inversion-specific GAN 的新型模型反演攻击方法，通过训练鉴别器不仅区分真伪样本，而且包括目标模型提供的软标签，进而为每个目标类建模私人数据分布，成功率比先前的攻击方式有所提高（150%），而且普适于多种数据集和模型。

Oct, 2020

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

针对 GPT 模型的对话重建攻击

近期，大型语言模型（LLMs）的领域取得了显著进展，GPT 系列模型为代表。为了优化任务执行，用户通常与云环境中的 GPT 模型进行多轮对话。本文介绍了一种特定的针对 GPT 模型的对话重建攻击，评估了其中存在的隐私风险，并引入了两种高级攻击来更好地重建以前的对话。研究结果表明，在涉及 GPT 模型的对话中存在隐私风险，并旨在引起社区的关注，以防止对这些模型杰出功能的潜在滥用。

Feb, 2024