生成式嵌入反演攻击揭示句向量的信息泄露
文中指出,将原始输入数据映射为低维向量表示的嵌入函数,不仅会对基础语义信息进行编码,也会泄漏输入数据的敏感信息。本文采用三种攻击方式系统研究嵌入函数泄露的信息,即向量反演、敏感属性提取和信息泄漏。研究发现各种嵌入模型都存在不同程度泄漏,但同时也提出了一些抵御这种攻击的防御方法。
Mar, 2020
该研究探讨了大型语言模型在数据隐私方面引发的关切,并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本,并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好,并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性,并为增强此类环境中的安全协议提供了有价值的见解。
May, 2024
本研究挑战了从预训练语言模型(PLMs)中获得句子嵌入所必须的显式单字限制的普遍观点,并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上,我们提出了两种创新的提示工程技术,可以进一步增强 PLMs 原始嵌入的表达能力:假装的思路链和知识增强,并详细研究了导致其成功的潜在因素。
Apr, 2024
文本嵌入可以泄露原始文本的多少私人信息?我们调查了嵌入反演的问题,重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决:生成文本,当重新嵌入时,接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好,但一个多步骤的方法,通过迭代修正和重新嵌入文本,能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入,并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息(全名)。
Oct, 2023
本文介绍了一种新型攻击方法 —— 生成模型反演攻击,它可以显著地提高逆转深度神经网络的准确率,攻击者使用部分公共信息学习分布先验,引导逆转过程,并且通过实验证明了差分隐私在该攻击下的防御效果有限。
Nov, 2019
使用生成模型从灰盒句子嵌入中检索离散句子作为一项新的非监督探测任务,并表明其与下游任务性能的相关性,同时展示不同编码器生成的语言存在差异。应用该方法从句子嵌入中生成句子类比。
Nov, 2020
这篇论文探讨了大型语言模型在提高检索式生成任务准确度方面的有效性,发现大型语言模型相较于传统的预训练模型具有更高的潜在危险性,可能对用户隐私造成负面影响,并探讨了缓解这一风险的初步策略。
Apr, 2024
研究了与文本嵌入相关的隐私风险,重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法,利用替代模型模拟受害模型的行为,使攻击者能够从文本嵌入中推断敏感信息,从而揭示了嵌入技术中潜在的隐私漏洞,强调了加强安全措施的必要性。
Jun, 2024