嵌入模型中的信息泄漏

Mar, 2020

Information Leakage in Embedding Models

Congzheng Song, Ananth Raghunathan

TL;DR文中指出，将原始输入数据映射为低维向量表示的嵌入函数，不仅会对基础语义信息进行编码，也会泄漏输入数据的敏感信息。本文采用三种攻击方式系统研究嵌入函数泄露的信息，即向量反演、敏感属性提取和信息泄漏。研究发现各种嵌入模型都存在不同程度泄漏，但同时也提出了一些抵御这种攻击的防御方法。

Abstract

embeddings are functions that map raw input data to low-dimensional vector representations, while preserving important semantic information about the inputs. Pre-training →

embeddings data preprocessing semantic information sensitive information attacks

发现论文，激发创造

大型语言模型中的嵌入信息泄漏

该研究探讨了大型语言模型在数据隐私方面引发的关切，并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本，并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好，并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性，并为增强此类环境中的安全协议提供了有价值的见解。

May, 2024

生成式嵌入反演攻击揭示句向量的信息泄露

通过生成对抗网络逆向语言模型的句向量表示，揭示其可能存在的信息泄露，并提出一种更为高效的逆向分析方式。

May, 2023

图嵌入中隐私泄漏的量化

本文首次通过三种推理攻击来量化图嵌入中的隐私泄漏，同时提出了对应的攻击策略，包括成员推理攻击、图重构攻击和属性推理攻击，并表明图嵌入与节点属性存在强相关性，让攻击者能够推断敏感信息。

Oct, 2020

可迁移性嵌入反转攻击：揭示文本嵌入的隐私风险，无需模型查询

研究了与文本嵌入相关的隐私风险，重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法，利用替代模型模拟受害模型的行为，使攻击者能够从文本嵌入中推断敏感信息，从而揭示了嵌入技术中潜在的隐私漏洞，强调了加强安全措施的必要性。

Jun, 2024

大型语言模型引导的嵌入的隐私风险理解

这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性，发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性，可能对用户隐私造成负面影响，并探讨了缓解这一风险的初步策略。

Apr, 2024

针对图神经网络的推理攻击

本文讨论了图嵌入在隐私方面存在的泄露风险，提出了三种推断攻击，并基于图嵌入扰动提出了有效的防御机制来减轻这些攻击的影响。

Oct, 2021

文本嵌入揭示的信息不亚于文本本身

文本嵌入可以泄露原始文本的多少私人信息？我们调查了嵌入反演的问题，重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决：生成文本，当重新嵌入时，接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好，但一个多步骤的方法，通过迭代修正和重新嵌入文本，能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入，并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息（全名）。

Oct, 2023

机器学习模型中的数据更新信息泄露

我们考虑机器学习模型在更新数据集后重新训练以获取最新信息或反映分布变化的情况。我们调查是否可以从训练数据中推断出有关这些更新的信息（例如，记录的属性值的更改）。我们提出了基于原始模型和更新模型之间预测置信度差异的攻击方法，并根据两个公共数据集和多层感知器以及逻辑回归模型验证了我们的攻击方法。我们发现模型的两个快照相对于仅访问更新后的模型而言，会导致更高的信息泄漏。此外，我们观察到罕见属性值的数据记录更容易受到攻击，这指向了更新环境下隐私攻击的不同脆弱性。当将具有相同原始属性值的多个记录更新为相同的新值时（即重复更改），攻击者更有可能正确猜测更新后的值，因为重复更改在训练模型上留下了更大的痕迹。这些观察结果表明机器学习模型在更新环境下容易受到属性推理攻击的威胁。

Sep, 2023

嵌入攻击项目（工作报告）

Embedding Attack Project 的 MIA 实验结果总结，包括威胁模型、实验设置、实验结果、发现和讨论。当前结果涵盖了对 6 个 AI 模型的两种主要 MIA 策略（基于损失和基于嵌入）的评估，涵盖了从计算机视觉到语言建模的范围。六个结论总结了关于 MIA 和 PIA 的当前研究成果。

Jan, 2024

基于同态加密的 BERT 嵌入隐私保护文本分类

该研究提出了一种基于同态加密的对嵌入向量进行隐私保护的机制，避免在文本分类过程中可能泄漏文本中的敏感属性信息，且大部分保留向量嵌入的实用价值。

Oct, 2022