教导大型语言模型忘记隐私

Dec, 2023

Teach Large Language Models to Forget Privacy

Ran Yan, Yujun Li, Wenqian Li, Peihua Mai, Yan Pang...

TL;DRPrompt2Forget (P2F) 是第一个针对大型语言模型的本地隐私挑战的框架，通过教授大型语言模型遗忘信息的方法，实现模型对敏感信息的遗忘性。实验结果表明 P2F 具有强大的能力，可以模糊大型语言模型的记忆，达到 90％的遗忘性，而无需牺牲其效用。这一发现对于隐私保护领域中的大型语言模型有着深远的影响。

Abstract

large language models (LLMs) have proven powerful, but the risk of privacy leakage remains a significant concern. Traditional privacy-preserving methods, such as Differential Privacy and Homomorphic Encryption, a

large language models privacy-preserving methods prompt2forget obfuscating memory privacy preservation

发现论文，激发创造

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

大语言模型中的差分隐私解码

本文提出了一种简单易行、计算轻量化的扰动机制，保证了模型的隐私性，在不影响模型实用性的情况下，可应用于所有 LLM 模型，解决了 LLM 在隐私保护与重新训练之间的折中问题。

May, 2022

联邦大型语言模型中的隐私泄漏分析

我们的研究对联邦学习在训练大规模语言模型时的隐私分析进行了广泛的研究，从理论和实践角度设计了两种具有理论成功率的主动成员推断攻击，揭示了包括 BERT、RoBERTa、DistilBERT 和 OpenAI 的 GPT 在多个真实世界的语言数据集中存在的重大隐私漏洞，并评估了这些模型在采用最先进的差分隐私机制保护数据时的隐私泄漏情况。

Mar, 2024

隐私保护条件下的逻辑回归模型推断的无免费午餐定理

通过开发一个推断隐私保护的大型语言模型框架并提出无免费午餐（NFL）定理，本研究为检验隐私保护和效用之间的相互作用奠定了坚实的理论基础。

May, 2024

语言模型中可学习的隐私神经元定位

我们引入了一种创新的方法来定位 LLMs 中敏感个人身份信息 (PII) 的神经元，通过对抗训练使用可学习的二进制权重掩码来定位特定的神经元，以解决 LLMs 中 PII 的记忆机制的不清楚性，并通过定位的隐私神经元的失活来减轻 PII 风险。我们的定位算法通过定量和定性实验证明了其有效性。

May, 2024

PFID: 面向 LLM 的隐私优先推断委托框架

该论文介绍了一种名为 PFID 的新型隐私保护框架，通过分散模型和奇异值分解的方式，解决了 LLM 系统中关键的隐私问题。

Jun, 2024

预测文本语言模型的种植和减轻记忆内容

通过测试效用一系列隐私保护技术来缓解大型语言模型不经意地记忆保密训练数据的风险，实验表明，差分隐私有可靠的隐私保护效果，但是性能代价较大。

Dec, 2022