通过私有化联合编辑增强大型语言模型的数据隐私

Jun, 2024

通过私有化联合编辑增强大型语言模型的数据隐私

Enhancing Data Privacy in Large Language Models through Private Association Editing

Davide Venditti, Elena Sofia Ruzzetti, Giancarlo A. Xompero, Cristina Giannone, Andrea Favalli...

TL;DR利用私有关联编辑（Private Association Editing，PAE）的方法，本研究针对大型语言模型（Large Language Models，LLMs）的私人数据泄露问题进行了防御，在不重新训练模型的情况下，有效地移除个人可识别信息（Personally Identifiable Information，PII）。通过四个步骤的程序，包括检测存储的 PII、使用 PAE 卡片减少私有数据的记忆、验证对目标数据提取（Targeted Data Extraction，TDE）攻击的韧性以及确保后编辑的 LLMs 的一致性，PAE 在 LLMs 的数据隐私方面显著提升了多项修改的灵活性和效率。实验结果显示 PAE 在减轻私人数据泄露方面的有效性。我们相信 PAE 将成为保护 LLMs 数据隐私的关键工具，鼓励开发更安全的用于现实世界应用的模型。

Abstract

large language models (LLMs) are powerful tools with extensive applications, but their tendency to memorize private information raises significant concerns as private data leakage can easily happen. In this paper

large language models private association editing personally identifiable information data privacy private data leakage

发现论文，激发创造

大型语言模型的关联能力量化及其对隐私泄露的影响

该研究探索了大型语言模型的关联能力，揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大，它们关联实体 / 信息的能力增强，但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁，特别是随着它们继续扩大规模和能力的过程中。

May, 2023

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

混合专家模型的差分隐私训练

本研究调查了差分隐私 (Differential Privacy) 在自然语言处理领域中混合专家模型 (Mixture of Experts models) 训练中的整合。通过对大规模语言模型 (Large Language Models) 在数十亿参数上进行训练，利用海量数据集，使其具备了强大的语言能力和新兴的能力，但这一增长带来了重大的计算和隐私问题。我们的研究通过探索具备计算效率的 MoE 模型及 DP 的应用来解决这些问题。我们首次尝试在 DP 的约束下训练 MoE 模型，解决了其架构以及 DP 整合的复杂性所带来的独特挑战。我们的初步实验研究表明，MoE 模型可以通过 DP 有效训练，并与非隐私对照组有竞争力的性能。本次研究旨在为隐私保护的 MoE 模型领域提供有价值的洞察力，为该领域进一步的研究奠定基础，并为未来的发展提供引导。

Feb, 2024

大型预训练语言模型是否泄露了你的个人信息？

本文分析了预训练语言模型（PLMs）是否容易泄漏个人信息，并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱，因此攻击者提取特定个人信息的风险较低，希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险，并为使 PLMs 更加安全带来新的见解。

May, 2022

语言模型如何受指导以保护个人信息？

大规模多模式语言模型已在许多应用中证明具有变革性。然而，这些模型已被证明会记忆和泄漏预训练数据，引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准，用于评估在模拟场景中指示模型保护特定类别个人信息时，此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术，在很大程度上提高了隐私。通过一系列红队实验，我们发现对手可以通过简单的越狱方法绕过这些保护，使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。

Oct, 2023

辅助生活隐私保护的深度学习方法

本文提出了一种基于 LSTM Encoder-Decoder 的新编码技术，用于实现医疗保健数据和环境辅助生活领域中对隐私的保护，通过实验结果证明了该方法的高效性和有效性。

Feb, 2018

ProPILE: 大型语言模型中的隐私泄漏探测

本文介绍了一种探测工具 ProPILE，由数据主体或 PII 所有者制定提示，评估基于 LLMs 的服务中 PII 泄漏的程度，并且展示了其在 OPT-1.3B 上的应用，该工具是授予数据主体他们对网络数据的知情权和控制权的开创性一步。

Jul, 2023

语言模型中可学习的隐私神经元定位

我们引入了一种创新的方法来定位 LLMs 中敏感个人身份信息 (PII) 的神经元，通过对抗训练使用可学习的二进制权重掩码来定位特定的神经元，以解决 LLMs 中 PII 的记忆机制的不清楚性，并通过定位的隐私神经元的失活来减轻 PII 风险。我们的定位算法通过定量和定性实验证明了其有效性。

May, 2024