文本嵌入揭示的信息不亚于文本本身

EMNLPOct, 2023

文本嵌入揭示的信息不亚于文本本身

Text Embeddings Reveal (Almost) As Much As Text

John X. Morris, Volodymyr Kuleshov, Vitaly Shmatikov, Alexander M. Rush

TL;DR文本嵌入可以泄露原始文本的多少私人信息？我们调查了嵌入反演的问题，重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决：生成文本，当重新嵌入时，接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好，但一个多步骤的方法，通过迭代修正和重新嵌入文本，能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入，并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息（全名）。

Abstract

How much private information do text embeddings reveal about the original text? We investigate the problem of embedding \textit{inversion}, reconstructing the full text represented in dense text embeddings. We fr

text embeddings embedding inversion controlled generation latent space personal information

发现论文，激发创造

Text Revealer: 通过模型反演攻击对 Transformers 进行私密文本重建

本文提出了一种名为 Text Revealer 的模型反演攻击方法，可有效重建训练数据中的私密文本，研究表明该方法对不同文本长度的数据集均有效。

Sep, 2022

理解和缓解 Vec2Text 对密集检索系统的威胁

该研究论文探讨了 Vec2Text 的潜在威胁和强化方法，关注于密集检索系统中的嵌入模型、隐私问题和转换技术。

Feb, 2024

可迁移性嵌入反转攻击：揭示文本嵌入的隐私风险，无需模型查询

研究了与文本嵌入相关的隐私风险，重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法，利用替代模型模拟受害模型的行为，使攻击者能够从文本嵌入中推断敏感信息，从而揭示了嵌入技术中潜在的隐私漏洞，强调了加强安全措施的必要性。

Jun, 2024

大型语言模型中的嵌入信息泄漏

该研究探讨了大型语言模型在数据隐私方面引发的关切，并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本，并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好，并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性，并为增强此类环境中的安全协议提供了有价值的见解。

May, 2024

嵌入模型中的信息泄漏

文中指出，将原始输入数据映射为低维向量表示的嵌入函数，不仅会对基础语义信息进行编码，也会泄漏输入数据的敏感信息。本文采用三种攻击方式系统研究嵌入函数泄露的信息，即向量反演、敏感属性提取和信息泄漏。研究发现各种嵌入模型都存在不同程度泄漏，但同时也提出了一些抵御这种攻击的防御方法。

Mar, 2020

生成式嵌入反演攻击揭示句向量的信息泄露

通过生成对抗网络逆向语言模型的句向量表示，揭示其可能存在的信息泄露，并提出一种更为高效的逆向分析方式。

May, 2023

揭示文本 - 图像扩散模型中的文本嵌入

本文研究了文本嵌入空间，发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义，并揭示文本嵌入本身具有多样的语义潜力，通过奇异值分解来进一步揭示这一特性，这些发现对图像编辑和语义发现具有实际应用价值。

Apr, 2024

大型语言模型引导的嵌入的隐私风险理解

这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Apr, 2024

个性化文本图像生成的交叉初始化

通过初始化方法的研究，我们提出了一种称为 Cross Initialization 的新型初始化方法，它明显缩小了初始嵌入和学习嵌入之间的差距，通过与正则化项相结合，有效提高了可编辑性，并在编辑人脸表情方面取得了成功，同时实现了较快的图像捕获速度和较好的重建和可编辑性。

Dec, 2023

通过稳定扩散进行高度个性化的文本嵌入以进行图像操作

本文介绍一种基于高度个性化文本嵌入的简单而高效的方法，通过分解 CLIP 嵌入空间来实现个性化和内容操作，并且仅需要一个图像和目标文本即可实现背景、纹理和动态的操作和编辑。

Mar, 2023