本文提出了使用联邦平均算法实现用户级差分隐私,以及在保持较高的实用性的同时进行隐私保护的方法。通过在用户分区数据上训练深层网络并进行隐私账户记录,我们证明即使在拥有大量用户的数据集上,实现差分隐私也只会以微不足道的精度损失为代价而非减少实用性。
Oct, 2017
通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型,提高私有领域的模型性能,让其成为可能。
Sep, 2020
本篇研究提供了更简单、更稀疏、更快速的算法来实现大规模预训练语言模型的差分隐私微调,在许多标准 NLP 任务上实现了最先进的隐私与实用性平衡。我们提出了一个元框架来解决这个问题,并在该领域中取得了最好的实用效果、隐私性、私有训练的计算和存储成本。
Oct, 2021
本文介绍了 SubMix,这是一种防止语言模型泄漏私有语料库信息的实用协议,其通过对预测结果进行一定程度的差分隐私处理,限制了个人用户的信息泄露,并保证了语言模型的效用。SubMix 是第一个可以在公开发布成千上万次基于 GPT-2 等大型 transformer 模型的预测结果时仍能维护隐私的协议。
Jan, 2022
通过使用基于Edgeworth会计师的有限样本隐私保证DP框架,我们提出了一种针对LLM的DP细调框架ewtune,该框架直接降低了噪声的影响,且在自然语言理解任务上将最新的LLMs性能提高了1.1%。
Oct, 2022
本文研究基于大规模公共数据和语言模型的差分隐私联邦学习,提出了一种新的分布匹配算法,以样本高效为目标,实现了基于公共数据训练私有模型的高效和有效的方法。
May, 2023
DP-ZO是一种维护训练数据隐私的方法,通过对零阶优化中步长的隐私化来对大型语言模型进行微调,可在保守的隐私预算下提供强大的隐私-效用权衡,且在SQuAD的1000个训练样本上,对OPT-66B的微调仅导致1.86%的性能降低。
Jan, 2024
利用用户级差分隐私(DP)进行训练大型语言模型(LLMs)的实用和可扩展算法研究,以可证明地保护每个用户贡献的所有示例;通过实验在固定计算预算下验证结果,发现当需要较高的隐私保证或计算预算较大时,用户级抽样和用户级梯度剪切(ULS)通常能提供更好的结果。
Jul, 2024
使用大型语言模型 (LLMs) 和差分隐私生成差分隐私合成文本,采用私有预测框架来确保生成的合成数据满足差分隐私保护。
本研究解决了大型语言模型(LLM)在隐私保护方面的不足,并提出了一种新的自适应私密解码框架AdaPMixED。该框架通过引入噪声筛选机制,对查询进行精细管理,实现了隐私损失减小16倍,同时保持了良好的模型效用,显示出其在实际应用中的潜力。
Oct, 2024