文本处理的广义差分隐私
本文提出了利用局部差分隐私 (DP) 对文本进行隐私保护的方法,使 BERT 自然语言处理可以进行隐私保护并保证了较高的数据效用,然而高效用并未增加推理攻击的成功率。
Jun, 2021
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
本文旨在解决基于文本的隐私保护问题,提出了一种基于度量的差分隐私方法,利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性,提出用候选选择解决替换方向的问题。实验结果表明,该方法在保证隐私的同时,提升了下游任务的表现。
Jun, 2023
本文介绍了一个新的文本匿名处理方法,该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出,同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。
May, 2022
该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。
Jul, 2019
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。
Oct, 2022
通过强化学习,我们介绍了一种自动文本隐私保护框架,该框架通过针对大型语言模型进行微调,产生能够在保持准确性、连贯性和隐私性之间达到平衡的重写文本,并在大规模的测试集上进行了全面评估,并成功规避了多种自动化作者识别攻击。
May, 2024
本文基于差分隐私原理给出了关于基于文本转换的去识别化方法的形式化隐私保证,并探究了不同的掩盖策略对与自然语言处理任务的影响。作者发现,只有通过深度学习模型进行逐字替换的方法是在多个任务中具有鲁棒性的。
Aug, 2020
基于差分隐私的文本重写方法,通过对重写后的文本再次进行重写,提高了在经验隐私评估中的保护性能,并为恶意对手提供了额外的保护层。
May, 2024