该研究综述了近年来在自然语言处理(NLP)领域中,如何在保护敏感数据的隐私同时实现良好性能的关键挑战。为了保护数据隐私, 差分隐私(DP)成为了隐私数据分析的有效技术。本文着重探讨了在 DP 深度学习模型中的自然语言处理 (DP-NLP) 的最新研究进展,并阐述了一些挑战和未来方向。
Jan, 2023
采用差分隐私应用于自然语言处理技术近年来越来越重要,本研究对其在词级上加入噪音以实现差分隐私表示的不同方法进行了对比分析,并提供了隐私 - 效用权衡的深入分析和代码开源,从而为该研究领域提供了具体的前进步骤。
Apr, 2024
本文对 2016 年至 2020 年间发表的 60 种深度学习模型进行了系统综述,介绍了一种新的分类法,并讨论了隐私保护自然语言处理模型中的隐私问题。
May, 2022
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
研究取得了基于 BERT 和 XtremeDistil 架构的神经模型,在五个典型的 NLP 任务中使用不同隐私保护策略在七个下游数据集上的表现,并发现每个任务和隐私方案都需要特殊处理以实现足够的性能。
Dec, 2021
该研究简要分析了使用 DPText 进行文本表示学习的几篇最近的自然语言处理论文,并揭示了它们虚假的差分隐私声明。此外,还提供了一个简单而通用的经验检查来确定给定的实现是否违反了隐私损失保证,以引起人们对将差分隐私应用于文本表示学习的潜在陷阱的关注并帮助研究人员了解。
Feb, 2022
本文提出了一种新的隐私保护机制 Selective-DPSGD,采用选择性差分隐私保护敏感信息,保证了语言模型和对话系统在隐私攻击下的安全性和效用性。
Aug, 2021
通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型,提高私有领域的模型性能,让其成为可能。
Sep, 2020
本文研究了将自然语言处理技术应用于用语言集合进行抑郁症等疾病的诊断中,并探讨了应用差分隐私机制对 BERT、ALBERT、RoBERTa 和 DistilBERT 等语言模型进行中央化和联邦学习时的效果,并提供了开源实现。
Jun, 2021
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争,同时提供了强大的保护措施以防止潜在的隐私泄漏。