嵌入模型中的信息泄漏
该研究探讨了大型语言模型在数据隐私方面引发的关切,并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本,并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好,并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性,并为增强此类环境中的安全协议提供了有价值的见解。
May, 2024
本文首次通过三种推理攻击来量化图嵌入中的隐私泄漏,同时提出了对应的攻击策略,包括成员推理攻击、图重构攻击和属性推理攻击,并表明图嵌入与节点属性存在强相关性,让攻击者能够推断敏感信息。
Oct, 2020
研究了与文本嵌入相关的隐私风险,重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法,利用替代模型模拟受害模型的行为,使攻击者能够从文本嵌入中推断敏感信息,从而揭示了嵌入技术中潜在的隐私漏洞,强调了加强安全措施的必要性。
Jun, 2024
这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性,发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性,可能对用户隐私造成负面影响,并探讨了缓解这一风险的初步策略。
Apr, 2024
文本嵌入可以泄露原始文本的多少私人信息?我们调查了嵌入反演的问题,重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决:生成文本,当重新嵌入时,接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好,但一个多步骤的方法,通过迭代修正和重新嵌入文本,能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入,并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息(全名)。
Oct, 2023
我们考虑机器学习模型在更新数据集后重新训练以获取最新信息或反映分布变化的情况。我们调查是否可以从训练数据中推断出有关这些更新的信息(例如,记录的属性值的更改)。我们提出了基于原始模型和更新模型之间预测置信度差异的攻击方法,并根据两个公共数据集和多层感知器以及逻辑回归模型验证了我们的攻击方法。我们发现模型的两个快照相对于仅访问更新后的模型而言,会导致更高的信息泄漏。此外,我们观察到罕见属性值的数据记录更容易受到攻击,这指向了更新环境下隐私攻击的不同脆弱性。当将具有相同原始属性值的多个记录更新为相同的新值时(即重复更改),攻击者更有可能正确猜测更新后的值,因为重复更改在训练模型上留下了更大的痕迹。这些观察结果表明机器学习模型在更新环境下容易受到属性推理攻击的威胁。
Sep, 2023
Embedding Attack Project 的 MIA 实验结果总结,包括威胁模型、实验设置、实验结果、发现和讨论。当前结果涵盖了对 6 个 AI 模型的两种主要 MIA 策略(基于损失和基于嵌入)的评估,涵盖了从计算机视觉到语言建模的范围。六个结论总结了关于 MIA 和 PIA 的当前研究成果。
Jan, 2024
该研究提出了一种基于同态加密的对嵌入向量进行隐私保护的机制,避免在文本分类过程中可能泄漏文本中的敏感属性信息,且大部分保留向量嵌入的实用价值。
Oct, 2022