可证明保密性的语言模型
本文提出了使用联邦平均算法实现用户级差分隐私,以及在保持较高的实用性的同时进行隐私保护的方法。通过在用户分区数据上训练深层网络并进行隐私账户记录,我们证明即使在拥有大量用户的数据集上,实现差分隐私也只会以微不足道的精度损失为代价而非减少实用性。
Oct, 2017
本文提出了一种简单易行、计算轻量化的扰动机制,保证了模型的隐私性,在不影响模型实用性的情况下,可应用于所有 LLM 模型,解决了 LLM 在隐私保护与重新训练之间的折中问题。
May, 2022
我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御,并减少了产生幻觉等有害内容的排放。
Sep, 2023
本文调查了一系列流行模型中预训练表示所编码的个人信息的程度,并展示了模型越复杂和数据越多,可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估,结果表明,隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术(如差分隐私)可能会对模型效用产生严重影响,可以使用混合或度量隐私方法来解决。
Apr, 2022
大规模多模式语言模型已在许多应用中证明具有变革性。然而,这些模型已被证明会记忆和泄漏预训练数据,引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准,用于评估在模拟场景中指示模型保护特定类别个人信息时,此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术,在很大程度上提高了隐私。通过一系列红队实验,我们发现对手可以通过简单的越狱方法绕过这些保护,使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。
Oct, 2023
利用特定域数据对大型语言模型进行微调时,存在个人身份信息敏感度的问题。为了解决这一挑战,我们引入了隐私保护语言模型(PPLM),通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析,并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是,正负样本指令微调成为一种有潜力的方法,可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。
Oct, 2023
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。
Oct, 2022