信息管理中保持语义的失真用于个人隐私保护
通过将词表示在双曲空间中以实现文本隐私保护,从而平衡了隐私和实用性之间的权衡,并针对作者归属问题进行了隐私试验,结果在可比的最差情况统计下获得了比欧几里得基线更高的隐私保护。
Oct, 2019
本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证,并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现,只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。
Aug, 2020
本研究提出了一种名为 TextHide 的方法,它可以在不影响训练效率或准确性的情况下有效地减少分布式或联邦学习中的隐私风险,通过简单地添加加密步骤来防止窃听攻击者恢复私人文本数据,该方法能够与预训练语言模型的微调框架很好地契合,并在 GLUE 基准测试中取得了良好的效果,可以有效抵御共享梯度和表示的攻击,并仅平均准确率降低了 1.9%。
Oct, 2020
提出了一种使用自编码器的实用性保留差分隐私文本转换算法,具有高语义质量并在下游NLP任务中表现良好,证明了算法的理论隐私保证,并评估了基于转换数据训练的模型下成员推理攻击的隐私泄漏。结果表明,与现有的基线相比,所提出的模型在MIA攻击方面表现更好,同时提供更低或没有底层转换过程中效用的降低。
Jan, 2021
研究在保持隐私的前提下通过数据生成和参数扭曲实现近乎最优效用的条件,提供了一种达到近乎最优效用的途径和相应的保护机制,同时提供了一种隐私与效用之间权衡的交易的上限。
May, 2023
提出一个保护机制的通用学习框架,通过扭曲模型参数保护隐私,可以在联合学习中实现个性化的隐私保护与数据价值间的权衡。在理论和实验证明该算法有效,提高了隐私维护的联合学习方法。
May, 2023
本文旨在解决基于文本的隐私保护问题,提出了一种基于度量的差分隐私方法,利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性,提出用候选选择解决替换方向的问题。实验结果表明,该方法在保证隐私的同时,提升了下游任务的表现。
Jun, 2023
本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务(文本分类和摘要)的模型中的有效性,重点关注假名化技术对原始数据和模型质量之间差距的关键见解,并促进未来研究更高质量的匿名化技术,以更好地平衡数据保护和效用保护之间的权衡。其中,代码、假名化数据集和下游模型均可公开获取。
Jun, 2023
采用一系列解释技术对来自在扰动预文本上训练的BERT的内部表示进行解析,旨在在语言层面上解开差分隐私引起的失真。实验证据表明,内部表示的整体相似度显著降低。使用探测任务来解析这种不相似性,发现文本到文本的隐私处理影响了多种形式的语言能力,编码了单词的局部属性,但在编码单词串的上下文关系方面存在不足。
Oct, 2023