基于差分隐私的文本重写方法,通过对重写后的文本再次进行重写,提高了在经验隐私评估中的保护性能,并为恶意对手提供了额外的保护层。
May, 2024
该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。
Jul, 2019
通过 DP 实现文本重写,为保护文本中个人隐私提供具体理论保障;为了解决现有系统的透明性和可重现性问题,提出 DP-Rewrite—— 一个开源、模块化、可扩展、高度定制化的框架,可提供不同的数据集、模型、专家预训练过程和评价指标等,实现了私密文本重写的前沿研究。以 ADePT DP 文本重写系统为案例,提供了一系列实验,检测其预训练方法中的隐私泄露问题。
Aug, 2022
通过删除敏感表达和抽象敏感细节,我们使用两种常见的人类策略对敏感文本进行了清理,以保护隐私,并开发了一个文本重写的工具,展示了更自然的重写结果和隐私保护与数据效用之间的平衡。
Jun, 2024
本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证,并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现,只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。
Aug, 2020
本文总结了隐私增强技术中差分隐私对自然语言处理中的隐私问题的影响和应用,以及现有研究的探讨和下一步的研究方向。
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
本文提出了利用局部差分隐私 (DP) 对文本进行隐私保护的方法,使 BERT 自然语言处理可以进行隐私保护并保证了较高的数据效用,然而高效用并未增加推理攻击的成功率。
Jun, 2021
本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务(文本分类和摘要)的模型中的有效性,重点关注假名化技术对原始数据和模型质量之间差距的关键见解,并促进未来研究更高质量的匿名化技术,以更好地平衡数据保护和效用保护之间的权衡。其中,代码、假名化数据集和下游模型均可公开获取。
Jun, 2023
本文评估了三种现成的 PII 掩码系统在名称检测和删除方面的性能,发现基于 RoBERTa 的开源系统表现优于商业模型,但是所有系统都存在由于人口统计学差异而存在显著差异的错误率,特别是与黑人和亚洲 / 太平洋岛民个人有关的名称。
May, 2022