理解和缓解 Vec2Text 对密集检索系统的威胁
文本嵌入可以泄露原始文本的多少私人信息?我们调查了嵌入反演的问题,重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决:生成文本,当重新嵌入时,接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好,但一个多步骤的方法,通过迭代修正和重新嵌入文本,能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入,并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息(全名)。
Oct, 2023
本研究提出了一个名为 Vec2Vec 的网络模型,它可以将开源的 768 维 MPNet 嵌入转换为 1,536 维的 text-ada-002 嵌入,其平均余弦相似度可达 0.932,并且可以用于以更低成本、更高效的方式进行搜索和数据隐私保护。
Jun, 2023
本文提出了一种名为 vec2text models 的模型, 它可以从有限的,凸的,行为良好的控制空间生成任意自然语言文本,并且可以通过强化学习在向量空间中做出语义决策。作者通过改进 Transformer 模型并利用自动编码目标函数训练它,实现了一个 vec2text 模型,其表现出普适性、多样性、流畅性和语义结构这 4 个特性。并且,作者通过大量实验证明了这个 vec2text 模型的有效性,并且表现超越了标准的自编码器和降噪自编码器。
Sep, 2022
本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道,用于检测 Facebook 帖子是否请求参与(例如点赞)。在针对有意和无意的对抗文本扰动方面,CW2V 嵌入的强健性优于基于字符 ngram 的嵌入,其分类结果在扰动下的 AUC 从 0.70 降至 0.67,而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。
Feb, 2022
本文研究了自然语言处理中的一个基本问题 —— 模型对输入变化的鲁棒性。通过对主流的词向量嵌入方案(如拼接、TF-IDF 和段落向量)的形式化证明,发现在 Hamming 距离中呈现出 Hölder 或 Lipschitz 鲁棒性。我们提供了数值界限,并证明文档长度对所涉及的常数有影响。这些发现通过一系列数值实例进行了说明。
Mar, 2023
研究了与文本嵌入相关的隐私风险,重点关注攻击者无法访问原始嵌入模型的情景。通过开发一种传递攻击方法,利用替代模型模拟受害模型的行为,使攻击者能够从文本嵌入中推断敏感信息,从而揭示了嵌入技术中潜在的隐私漏洞,强调了加强安全措施的必要性。
Jun, 2024
该论文基于度量差分隐私技术,通过加入标定的噪声到单词的向量,并将这个嘈杂的向量通过最近邻搜索算法之后重新映射回离散词汇表,以实现文本到文本的保护。考虑到例如 ' 银行 ' 这样的歧义词,论文通过利用同义词的向量并结合歧义消解步骤来改进该机制,同时在隐私性和实用性方面进行评估。在 Words in Context 数据集上的单词意义消歧中,分类准确性提高了 6.05%。
Jun, 2023
本文研究了文本嵌入空间,发现每个词的嵌入和其上下文相关性对学习无关的图像编辑具有重要意义,并揭示文本嵌入本身具有多样的语义潜力,通过奇异值分解来进一步揭示这一特性,这些发现对图像编辑和语义发现具有实际应用价值。
Apr, 2024
本文提出一种名为 “Vec2Gloss” 的模型,通过使用语境化嵌入来生成目标词的文本定义来表达高维语义向量,利用中文 Wordnet 提供的系统化概述模式生成这项研究的定义,并设计了两个依赖度量来分析生成的文本。结果表明 “Vec2Gloss” 模型为语境化嵌入的词汇语义应用开辟了新的视角。
May, 2023