信息管理中保持语义的失真用于个人隐私保护

Jan, 2022

信息管理中保持语义的失真用于个人隐私保护

Semantics-Preserved Distortion for Personal Privacy Protection

Letian Peng, Zuchao Li, Hai Zhao

TL;DR本研究提出了一种以语义保持的方式扭曲文本以达到保护个人隐私的方法, 实验表明该方法在数据隐私保护以及特定医疗信息管理上有着实际意义.

Abstract

privacy protection is an important and concerning topic in Federated Learning, especially for Natural Language Processing. In client devices, a large number of texts containing personal information are produced by users every day. As the direct application of information from users is

发现论文，激发创造

利用分层表示来保护文本的隐私和效用

通过将词表示在双曲空间中以实现文本隐私保护，从而平衡了隐私和实用性之间的权衡，并针对作者归属问题进行了隐私试验，结果在可比的最差情况统计下获得了比欧几里得基线更高的隐私保护。

Oct, 2019

去标识化文本转化的隐私保证

本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证，并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现，只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。

Aug, 2020

语言理解任务中的数据隐私问题

本研究提出了一种名为 TextHide 的方法，它可以在不影响训练效率或准确性的情况下有效地减少分布式或联邦学习中的隐私风险，通过简单地添加加密步骤来防止窃听攻击者恢复私人文本数据，该方法能够与预训练语言模型的微调框架很好地契合，并在 GLUE 基准测试中取得了良好的效果，可以有效抵御共享梯度和表示的攻击，并仅平均准确率降低了 1.9%。

Oct, 2020

ADePT：基于自编码器的差分隐私文本转换

提出了一种使用自编码器的实用性保留差分隐私文本转换算法，具有高语义质量并在下游NLP任务中表现良好，证明了算法的理论隐私保证，并评估了基于转换数据训练的模型下成员推理攻击的隐私泄漏。结果表明，与现有的基线相比，所提出的模型在MIA攻击方面表现更好，同时提供更低或没有底层转换过程中效用的降低。

Jan, 2021

当差分隐私遇上自然语言处理：魔鬼藏在细节中

本文针对ADePT的形式化分析表明其不具备差分隐私性质，证明了实验结果缺乏可靠的支持，同时阐明了形式化保证在自然语言处理中的重要性。

Sep, 2021

通过数据生成和参数扭曲实现隐私保存联邦学习近乎最佳效用

研究在保持隐私的前提下通过数据生成和参数扭曲实现近乎最优效用的条件，提供了一种达到近乎最优效用的途径和相应的保护机制，同时提供了一种隐私与效用之间权衡的交易的上限。

May, 2023

基于理论原则的联邦学习——以平衡隐私和效用为目标

提出一个保护机制的通用学习框架，通过扭曲模型参数保护隐私，可以在联合学习中实现个性化的隐私保护与数据价值间的权衡。在理论和实验证明该算法有效，提高了隐私维护的联合学习方法。

May, 2023

通过语法指导文本到文本的隐私保护

本文旨在解决基于文本的隐私保护问题，提出了一种基于度量的差分隐私方法，利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性，提出用候选选择解决替换方向的问题。实验结果表明，该方法在保证隐私的同时，提升了下游任务的表现。

Jun, 2023

基于匿名化的隐私和效用保护自然语言处理：假名化案例研究

本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务（文本分类和摘要）的模型中的有效性，重点关注假名化技术对原始数据和模型质量之间差距的关键见解，并促进未来研究更高质量的匿名化技术，以更好地平衡数据保护和效用保护之间的权衡。其中，代码、假名化数据集和下游模型均可公开获取。

Jun, 2023

隐私保护BERT语言能力的解耦

采用一系列解释技术对来自在扰动预文本上训练的BERT的内部表示进行解析，旨在在语言层面上解开差分隐私引起的失真。实验证据表明，内部表示的整体相似度显著降低。使用探测任务来解析这种不相似性，发现文本到文本的隐私处理影响了多种形式的语言能力，编码了单词的局部属性，但在编码单词串的上下文关系方面存在不足。

Oct, 2023