文档嵌入的句子级隐私保护
对自然语言生成任务中使用大型语言模型进行用户级差分隐私保护的设计选择进行系统评估,重点研究两种实现用户级差分隐私保证的机制,即群体隐私和用户级 DP-SGD,包括数据选择策略和参数调优,以实现最佳的隐私 - 效用平衡。
Jun, 2024
应用差分隐私(DP)在自然语言处理中的研究必须区分其操作的句法级别,通常采用单词级或文档级的隐私化形式。最近,已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Privacy 方法。然而,这些方法往往无法产生语义连贯的文本输出,只能通过基本的单词扰动组合实现在句子或文档级别的应用。本研究通过在单词和句子级别之间操作,即使用 Collocations,来解决这些挑战。通过扰动 n-grams 而不是单个单词,我们设计了一种方法,其中组合的隐私化输出具有更高的语义连贯性和可变长度。我们通过构建一个基于频繁出现的单词组的嵌入模型来实现这一目标,在该模型中,unigram 词与 bi - 和 trigram collocations 共存。我们在效用和隐私测试中评估了我们的方法,明确提出了超越单词级的标记化策略。
Jun, 2024
本文提出一种名为 DP-FedEmb 的联邦学习算法改进版本,用于训练大规模图像到嵌入特征提取器模型,包含虚拟客户端、部分聚合、私有本地微调和公共预训练等技术,能在相同的隐私预算下实现强隐私效用平衡,并且在 DigiFace、EMNIST、GLD 和 iNaturalist 数据集上展示了其卓越的效用性能。
Nov, 2022
本文介绍了一个新的文本匿名处理方法,该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出,同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。
May, 2022
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022
本文提出了一种新颖的用户 - 实体差分隐私(UeDP)的概念,以同时为文本数据中的敏感实体和学习自然语言模型的数据所有者提供正式的隐私保护。为了保护 UeDP,我们开发了一种新算法 UeDP-Alg,该算法对用户和敏感实体采样过程进行紧密的敏感性边界优化,通过优化隐私损失和模型效用之间的平衡,证明了我们的 UeDP-Alg 在多个自然语言模型任务中比基准方法在相同隐私预算下的模型效用要好,使用基准数据集。
Nov, 2022
本研究提出了一种名为 LDP-GE 的隐私保护图嵌入框架,通过局部差分隐私机制对节点数据进行模糊处理,并采用个性化 PageRank 作为节点表示的相似度度量,理论分析和实验证明 LDP-GE 在节点分类和链接预测任务中具有良好的隐私和效用平衡,并显著优于现有方法。
Oct, 2023
该研究开发了一个基于非受信任服务器设置的深度学习框架,包括三个模块:嵌入模块、随机化模块和分类器模块,并提出了一种新的本地差分隐私协议,以减小隐私参数 epsilon 对准确性的影响,提高随机化概率的灵活性。分析和实验表明,该框架可提供与非隐私框架和现有 LDP 协议相当甚至更好的性能,展示了该 LDP 协议的优势。
Jun, 2020
本研究提出了一种新的方法:Truncated Exponential Mechanism(TEM),允许使用任何距离度量来对语言表示进行数据隐私转化,并在对该方法进行实证比较时发现,在保障数据隐私的同时,能够提供更大的度量选择自由度和更好的实验效用。
Jul, 2021