文本处理的广义差分隐私

Nov, 2018

Generalised Differential Privacy for Text Document Processing

Natasha Fernandes, Mark Dras, Annabelle McIver

TL;DR本文提出了一种隐私保护机制，通过结合机器学习技术和文本处理技术，通过 “词袋” 表示的文档来建模文本文件的隐私。该机制在语义相似性度量方面满足隐私保护，从而在保护文本隐私信息的同时，保留足够的文本内容信息以便进行准确的内容分类任务。

Abstract

We address the problem of how to "obfuscate" texts by removing stylistic clues which can identify authorship, whilst preserving (as much as possible) the content of the text. In this paper we combine ideas from "generalised differential privacy" and →

obfuscation privacy machine learning bag-of-words authorship attribution

发现论文，激发创造

通过自然文本清洗技术实现文本分析的差分隐私保护

本文提出了利用局部差分隐私 (DP) 对文本进行隐私保护的方法，使 BERT 自然语言处理可以进行隐私保护并保证了较高的数据效用，然而高效用并未增加推理攻击的成功率。

Jun, 2021

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

通过语法指导文本到文本的隐私保护

本文旨在解决基于文本的隐私保护问题，提出了一种基于度量的差分隐私方法，利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性，提出用候选选择解决替换方向的问题。实验结果表明，该方法在保证隐私的同时，提升了下游任务的表现。

Jun, 2023

单词级差分隐私的限制

本文介绍了一个新的文本匿名处理方法，该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出，同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。

May, 2022

我非我所写：隐私保护文本表示学习

该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。

Jul, 2019

差分隐私的合成文本生成：一个简单实用的方法

本文讨论隐私问题在数据驱动产品和服务中引起的关注，提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法，以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析，我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争，同时提供了强大的保护措施以防止潜在的隐私泄漏。

Oct, 2022

信息管理中保持语义的失真用于个人隐私保护

本研究提出了一种以语义保持的方式扭曲文本以达到保护个人隐私的方法，实验表明该方法在数据隐私保护以及特定医疗信息管理上有着实际意义.

Jan, 2022

保持私密性：在线文本的无监督私有化

通过强化学习，我们介绍了一种自动文本隐私保护框架，该框架通过针对大型语言模型进行微调，产生能够在保持准确性、连贯性和隐私性之间达到平衡的重写文本，并在大规模的测试集上进行了全面评估，并成功规避了多种自动化作者识别攻击。

May, 2024

去标识化文本转化的隐私保证

本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证，并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现，只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。

Aug, 2020

再简化一遍：为差分隐私重写文本提升语义相似度和隐私保护的后处理方法

基于差分隐私的文本重写方法，通过对重写后的文本再次进行重写，提高了在经验隐私评估中的保护性能，并为恶意对手提供了额外的保护层。

May, 2024