EMNLPOct, 2023

文本嵌入揭示的信息不亚于文本本身

TL;DR文本嵌入可以泄露原始文本的多少私人信息?我们调查了嵌入反演的问题,重构了用密集文本嵌入表示的完整文本。我们将问题作为控制生成的方法来解决:生成文本,当重新嵌入时,接近潜在空间中的固定点。虽然简单的模型在文本嵌入的条件下表现不好,但一个多步骤的方法,通过迭代修正和重新嵌入文本,能够精确恢复 32 个单词输入的 92%。我们训练我们的模型从两种最先进的嵌入模型中解码文本嵌入,并且还表明我们的模型可以从临床记录数据集中恢复重要的个人信息(全名)。