MoPe: 基于模型扰动的语言模型隐私攻击

Oct, 2023

MoPe: 基于模型扰动的语言模型隐私攻击

MoPe: Model Perturbation-based Privacy Attacks on Language Models

Marvin Li, Jason Wang, Jeffrey Wang, Seth Neel

TL;DR使用模型摄动法（MoPe）添加噪声到训练数据的模型参数空间，并测量参数点 $x$ 处对数似然的降低，得到了具有高置信度的预训练语言模型训练数据的方法。对涵盖从 70M 到 12B 参数的语言模型进行实验，发现 MoPe 比现有的基于损失的攻击和最近提出的摄动方法更有效。此外，还对训练点顺序和模型大小在攻击成功中的作用进行了研究，并实证了 MoPe 在实践中准确近似了 Hessian 矩阵的迹。结果表明，仅仅通过损失值无法确定能否提取信息，我们的方法可以恢复一些平均损失的训练点，对之前使用损失值作为记忆或遗忘证据的研究结果产生了一定的怀疑。

Abstract

Recent work has shown that large language models (LLMs) can unintentionally leak sensitive information present in their training data. In this paper, we present →

large language models model perturbations training data pre-trained language model trace of the hessian matrix

发现论文，激发创造

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

教授语言模型如何钓鱼：从中窃取私人信息

本文提出了一种名为 “神经钓鱼” 的新型实用数据提取攻击，可以使攻击者从基于用户数据训练的模型中目标和提取敏感或个人身份信息（PII），例如信用卡号码，攻击成功率高达 10%，有时甚至高达 50%。攻击方法仅需要攻击者将数十个看似良性的句子插入训练数据集，对用户数据的结构仅具有模糊的先验假设。

Mar, 2024

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

对预训练数据检测的语言模型探究

大语言模型（LLMs）在展示其出色的能力的同时，也引发了由于隐私问题和基准数据集泄露所导致的数据污染问题。因此，在预训练阶段检测污染是否有 LLM 在目标文本上进行了预训练变得至关重要。最近的研究关注生成的文本并计算困惑度，但这些都是表面特征而不可靠。本研究提出利用探测技术来检测预训练数据，通过检查模型的内部激活状态。我们的方法简单且有效，并实现了更可靠的预训练数据检测。此外，我们还提出了 ArxivMIA 基准，它包括来自计算机科学和数学类别的 arxiv 摘要。我们的实验证明我们的方法胜过所有基准，实现了 WikiMIA 和 ArxivMIA 的最新性能，并通过额外的实验验证了其有效性。

Jun, 2024

P-Bench: 语言模型多层隐私评估基准

我们提出了 P-Bench，这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准，并对各种隐私保护语言模型进行公平和直观的评估。

Nov, 2023

通过伪标记成员的微调增强训练数据曝光

通过对神经语言模型进行对抗性微调，以增强其对预训练数据的保留，本文介绍了一种新的攻击场景。通过使用伪标签进行生成文本的成员近似，我们证明了使用更高的成员概率进行微调能够使模型暴露训练数据增加四到八倍。

Feb, 2024

在指导调整期间学习对大型语言模型进行毒化

通过设计一种新的数据污染攻击，本研究进一步识别了 LLMs 中的安全风险，并提出了一种梯度引导的后门触发器学习方法，以高效地识别对手的触发器，并确保对传统防御的逃避，同时保持内容完整性。

Feb, 2024

大规模语言模型的对抗性搜索引擎优化

大语言模型（LLM）被越来越多地应用于模型在选择竞争的第三方内容方面，比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击，可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手，从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境，其中所有各方都有动机发动攻击，但是整体效果会降低 LLM 的输出质量。我们在生产环境的 LLM 搜索引擎（Bing 和 Perplexity）以及插件 API（用于 GPT-4 和 Claude）上演示了我们的攻击。随着 LLM 被越来越多地用于排列第三方内容，我们预计偏好操纵攻击将成为一个重大威胁。

Jun, 2024

强制生成模型退化：数据注毒攻击的力量

通过细粒度的实验，我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化，这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。

Dec, 2023