差分隐私语言模型受益于公共预训练
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
该研究综述了近年来在自然语言处理(NLP)领域中,如何在保护敏感数据的隐私同时实现良好性能的关键挑战。为了保护数据隐私, 差分隐私(DP)成为了隐私数据分析的有效技术。本文着重探讨了在 DP 深度学习模型中的自然语言处理 (DP-NLP) 的最新研究进展,并阐述了一些挑战和未来方向。
Jan, 2023
通过使用有限的公共数据,我们提出了一种新颖的差分隐私持续预训练策略,可以显著减轻差分隐私优化器的性能下降问题,并在 ImageNet-21k 上实现 41.5% 的差分隐私准确率(ε=8),以及在下游任务 Places365 和 iNaturalist-2021 上分别达到 55.7% 和 60.0% 的非差分隐私准确率,与当前最先进的标准预训练方法相媲美并且明显优于现有的差分隐私预训练模型。
Feb, 2024
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
本文介绍了两种隐私保护正则化方法,以实现公用性和隐私的联合优化,通过广泛评估,展示了这些方法的优势,例如略有优越的公用性 - 隐私权衡、更快的训练以及确保少数群体的平等待遇。
Mar, 2021
本文阐述了利用不同隐私保护训练配置扩大自监督学习 Transformer 模型的规模,提供 Domain Adaptation 和 Privacy Protection,实现在法律领域 NLP 下的无监督超大规模训练的技术,这在之前尚未得到解决。
Nov, 2022
通过使用基于 Edgeworth 会计师的有限样本隐私保证 DP 框架,我们提出了一种针对 LLM 的 DP 细调框架 ewtune,该框架直接降低了噪声的影响,且在自然语言理解任务上将最新的 LLMs 性能提高了 1.1%。
Oct, 2022
对自然语言生成任务中使用大型语言模型进行用户级差分隐私保护的设计选择进行系统评估,重点研究两种实现用户级差分隐私保证的机制,即群体隐私和用户级 DP-SGD,包括数据选择策略和参数调优,以实现最佳的隐私 - 效用平衡。
Jun, 2024
使用预训练的语言模型以及非标准化超参数和 fine-tuning 目标结合 DP 优化技术,可在中等规模的语料库上获得胜过强基线和同一隐私预算下的 DP-trained 模型的 NLP 模型。我们还提出了一种内存节省技术来解决在大型 Transformers 上运行 DP-SGD 的计算难题,该技术可以使得 clip 在 DP-SGD 中运行而无需对模型中的任何线性层实例化每个样本的梯度,成本与非隐私的训练相当,并且有适度的运行时间开销。
Oct, 2021