一种使用正则化马氏距离的差分隐私文本扰动方法
本文使用 dx-privacy 和 word embedding,提出了一种隐私保护的文本扰动方法,并在大量数据集上进行了实证研究,结果表明在提供更好的隐私保证的同时,实用性有所提高(训练二元分类器的实用性可达到 < 2% 的损失)
Oct, 2019
该论文基于度量差分隐私技术,通过加入标定的噪声到单词的向量,并将这个嘈杂的向量通过最近邻搜索算法之后重新映射回离散词汇表,以实现文本到文本的保护。考虑到例如 ' 银行 ' 这样的歧义词,论文通过利用同义词的向量并结合歧义消解步骤来改进该机制,同时在隐私性和实用性方面进行评估。在 Words in Context 数据集上的单词意义消歧中,分类准确性提高了 6.05%。
Jun, 2023
本研究提出了一种新的方法:Truncated Exponential Mechanism(TEM),允许使用任何距离度量来对语言表示进行数据隐私转化,并在对该方法进行实证比较时发现,在保障数据隐私的同时,能够提供更大的度量选择自由度和更好的实验效用。
Jul, 2021
本文旨在解决基于文本的隐私保护问题,提出了一种基于度量的差分隐私方法,利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性,提出用候选选择解决替换方向的问题。实验结果表明,该方法在保证隐私的同时,提升了下游任务的表现。
Jun, 2023
采用差分隐私应用于自然语言处理技术近年来越来越重要,本研究对其在词级上加入噪音以实现差分隐私表示的不同方法进行了对比分析,并提供了隐私 - 效用权衡的深入分析和代码开源,从而为该研究领域提供了具体的前进步骤。
Apr, 2024
应用差分隐私(DP)在自然语言处理中的研究必须区分其操作的句法级别,通常采用单词级或文档级的隐私化形式。最近,已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Privacy 方法。然而,这些方法往往无法产生语义连贯的文本输出,只能通过基本的单词扰动组合实现在句子或文档级别的应用。本研究通过在单词和句子级别之间操作,即使用 Collocations,来解决这些挑战。通过扰动 n-grams 而不是单个单词,我们设计了一种方法,其中组合的隐私化输出具有更高的语义连贯性和可变长度。我们通过构建一个基于频繁出现的单词组的嵌入模型来实现这一目标,在该模型中,unigram 词与 bi - 和 trigram collocations 共存。我们在效用和隐私测试中评估了我们的方法,明确提出了超越单词级的标记化策略。
Jun, 2024
通过向数据集添加噪音或映射到低维子空间,使用条件互信息作为隐私保护度量,研究线性回归问题的差分隐私问题与非协同 SIMO 问题之间的联系。
Feb, 2019
通过将词表示在双曲空间中以实现文本隐私保护,从而平衡了隐私和实用性之间的权衡,并针对作者归属问题进行了隐私试验,结果在可比的最差情况统计下获得了比欧几里得基线更高的隐私保护。
Oct, 2019
本文介绍了一个新的文本匿名处理方法,该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出,同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。
May, 2022