可证明保密性的语言模型

ACLMay, 2022

Provably Confidential Language Modelling

Xuandong Zhao, Lei Li, Yu-Xiang Wang

TL;DR本文介绍了一种名为 Confidentially Redacted Training（CRT）的方法，该方法涉及到对特定的隐私信息进行保密，从而在训练大型自然语言生成模型时避免意外记忆，实验证明该方法可以在保留隐私的同时保持模型的准确性。

Abstract

large language models are shown to memorize privacy information such as social security numbers in training data. Given the sheer scale of

large language models privacy confidentiality training redaction

发现论文，激发创造

预测文本语言模型的种植和减轻记忆内容

通过测试效用一系列隐私保护技术来缓解大型语言模型不经意地记忆保密训练数据的风险，实验表明，差分隐私有可靠的隐私保护效果，但是性能代价较大。

Dec, 2022

学习差分隐私递归语言模型

本文提出了使用联邦平均算法实现用户级差分隐私，以及在保持较高的实用性的同时进行隐私保护的方法。通过在用户分区数据上训练深层网络并进行隐私账户记录，我们证明即使在拥有大量用户的数据集上，实现差分隐私也只会以微不足道的精度损失为代价而非减少实用性。

Oct, 2017

大语言模型中的差分隐私解码

本文提出了一种简单易行、计算轻量化的扰动机制，保证了模型的隐私性，在不影响模型实用性的情况下，可应用于所有 LLM 模型，解决了 LLM 在隐私保护与重新训练之间的折中问题。

May, 2022

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

语言模型如何受指导以保护个人信息？

大规模多模式语言模型已在许多应用中证明具有变革性。然而，这些模型已被证明会记忆和泄漏预训练数据，引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准，用于评估在模拟场景中指示模型保护特定类别个人信息时，此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术，在很大程度上提高了隐私。通过一系列红队实验，我们发现对手可以通过简单的越狱方法绕过这些保护，使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。

Oct, 2023

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

面向语言建模的选择性差分隐私

本文提出了一种新的隐私保护机制 Selective-DPSGD，采用选择性差分隐私保护敏感信息，保证了语言模型和对话系统在隐私攻击下的安全性和效用性。

Aug, 2021