隐私保护文本重写的敏感数据众包

Mar, 2023

隐私保护文本重写的敏感数据众包

Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting

Nina Mouhammad, Johannes Daxenberger, Benjamin Schiller, Ivan Habernal

TL;DR本文介绍了一种通过采用差分隐私技术以及移除个人身份信息的方法，来保护文本数据中的隐私信息，在保护隐私的同时，保证通过群体外包得到的数据质量

Abstract

Most tasks in nlp require labeled data. data labeling is often done on crowdsourcing platforms due to scalability reasons. However, publis

nlp data labeling privacy protection crowdsourcing differential privacy

发现论文，激发创造

再简化一遍：为差分隐私重写文本提升语义相似度和隐私保护的后处理方法

基于差分隐私的文本重写方法，通过对重写后的文本再次进行重写，提高了在经验隐私评估中的保护性能，并为恶意对手提供了额外的保护层。

May, 2024

我非我所写：隐私保护文本表示学习

该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。

Jul, 2019

DP-Rewrite: 差分隐私文本重写的可重复性和透明度

通过 DP 实现文本重写，为保护文本中个人隐私提供具体理论保障；为了解决现有系统的透明性和可重现性问题，提出 DP-Rewrite—— 一个开源、模块化、可扩展、高度定制化的框架，可提供不同的数据集、模型、专家预训练过程和评价指标等，实现了私密文本重写的前沿研究。以 ADePT DP 文本重写系统为案例，提供了一系列实验，检测其预训练方法中的隐私泄露问题。

Aug, 2022

NAP^2：从人类学习的自然性和隐私保护文本重写基准

通过删除敏感表达和抽象敏感细节，我们使用两种常见的人类策略对敏感文本进行了清理，以保护隐私，并开发了一个文本重写的工具，展示了更自然的重写结果和隐私保护与数据效用之间的平衡。

Jun, 2024

去标识化文本转化的隐私保证

本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证，并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现，只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。

Aug, 2020

自然语言处理中的差分隐私：迄今为止的故事

本文总结了隐私增强技术中差分隐私对自然语言处理中的隐私问题的影响和应用，以及现有研究的探讨和下一步的研究方向。

Aug, 2022

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

通过自然文本清洗技术实现文本分析的差分隐私保护

本文提出了利用局部差分隐私 (DP) 对文本进行隐私保护的方法，使 BERT 自然语言处理可以进行隐私保护并保证了较高的数据效用，然而高效用并未增加推理攻击的成功率。

Jun, 2021

基于匿名化的隐私和效用保护自然语言处理：假名化案例研究

本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务（文本分类和摘要）的模型中的有效性，重点关注假名化技术对原始数据和模型质量之间差距的关键见解，并促进未来研究更高质量的匿名化技术，以更好地平衡数据保护和效用保护之间的权衡。其中，代码、假名化数据集和下游模型均可公开获取。

Jun, 2023

面具背后：PII 掩码中姓名识别的人口统计学偏见

本文评估了三种现成的 PII 掩码系统在名称检测和删除方面的性能，发现基于 RoBERTa 的开源系统表现优于商业模型，但是所有系统都存在由于人口统计学差异而存在显著差异的错误率，特别是与黑人和亚洲 / 太平洋岛民个人有关的名称。

May, 2022