通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型,提高私有领域的模型性能,让其成为可能。
Sep, 2020
本篇研究提供了更简单、更稀疏、更快速的算法来实现大规模预训练语言模型的差分隐私微调,在许多标准 NLP 任务上实现了最先进的隐私与实用性平衡。我们提出了一个元框架来解决这个问题,并在该领域中取得了最好的实用效果、隐私性、私有训练的计算和存储成本。
Oct, 2021
研究取得了基于BERT和XtremeDistil架构的神经模型,在五个典型的NLP任务中使用不同隐私保护策略在七个下游数据集上的表现,并发现每个任务和隐私方案都需要特殊处理以实现足够的性能。
Dec, 2021
使用联邦学习和差分隐私技术来保护隐私,同时采用PEU、LoRA和NCE等技术来降低大模型的噪声和内存需求,从而成功地在计算受限设备上训练大词汇量的语言模型。
Jul, 2022
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用DP-SGD进行训练。
Oct, 2022
本文研究基于大规模公共数据和语言模型的差分隐私联邦学习,提出了一种新的分布匹配算法,以样本高效为目标,实现了基于公共数据训练私有模型的高效和有效的方法。
May, 2023
DP-ZO是一种维护训练数据隐私的方法,通过对零阶优化中步长的隐私化来对大型语言模型进行微调,可在保守的隐私预算下提供强大的隐私-效用权衡,且在SQuAD的1000个训练样本上,对OPT-66B的微调仅导致1.86%的性能降低。
Jan, 2024
通过对公共LLM输出分布周围的集合投影,并对投影分布进行平均和抽样,PMixED提供了基于模型预测的差分隐私保护方法,比样本级隐私更可靠,并在大规模数据集上胜过DP-SGD。
Mar, 2024
利用用户级差分隐私(DP)进行训练大型语言模型(LLMs)的实用和可扩展算法研究,以可证明地保护每个用户贡献的所有示例;通过实验在固定计算预算下验证结果,发现当需要较高的隐私保证或计算预算较大时,用户级抽样和用户级梯度剪切(ULS)通常能提供更好的结果。
Jul, 2024
本研究解决了语言模型在微调过程中面临的隐私保护不足问题。提出的ANADP算法通过根据模型参数的重要性自适应分配加性噪声,优化了差分隐私的效果。实验结果表明,ANADP在满足隐私要求的同时,缩小了常规微调与传统差分隐私微调之间的性能差距。
Oct, 2024