免疫有害微调攻击

Feb, 2024

Immunization against harmful fine-tuning attacks

Domenic Rosati, Jan Wehner, Kai Williams, Łukasz Bartoszcze, Jan Batzner...

TL;DR通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Abstract

Approaches to aligning large language models (LLMs) with human values has focused on correcting misalignment that emerges from pretraining. However, this focus overlooks another source of →

large language models misalignment fine-tuning attacks defence immunization conditions

发现论文，激发创造

无二恶：揭示微调攻击的不同机制

大型语言模型的现有安全对齐方式存在脆弱性，并可通过不同策略进行攻击，如对几个有害示例进行微调或操纵生成结果的前缀。本文通过研究两种攻击方法的机制发现，它们差异巨大，强调了理解大型语言模型内部安全保障过程的重要性，并建议需要多样的防御机制来应对各种类型的攻击。

May, 2024

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

从微调和量化中提高 LLM 的脆弱性

大型语言模型在各个领域中得到了广泛应用，但是它们也面临不同类型的攻击，如越狱、提示注入和隐私泄露攻击。本研究探讨了下游任务（如改进性调整和量化）对大型语言模型的脆弱性的影响，并展示了使用外部防护措施以减少脆弱性的实用性。

Apr, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

疫苗：针对大型语言模型的扰动感知对齐

新型的定型服务范式引入了大型语言模型（LLMs）的新攻击面：用户上传的少量有害数据可以轻易地欺骗定型，从而产生对齐破坏的模型。我们进行了实证分析，揭示了一种可能引起对齐破坏效应的有害嵌入漂移现象。在我们的研究发现的启示下，我们提出了一种名为 Vaccine 的扰动感知对齐技术，以减轻用户定型的安全风险。疫苗的核心思想是通过在对齐阶段逐步添加精心设计的扰动，产生不变的隐藏嵌入。这使得嵌入能够抵御定型阶段不经过消毒处理的用户数据所带来的有害扰动。我们在开源主流 LLMs（例如 Llama2、Opt、Vicuna）上的实验结果表明，Vaccine 可以增强对抗由有害提示引起的嵌入漂移而保留对良性提示的推理能力。我们的代码可在 https://github.com/git-disl/Vaccine 获取。

Feb, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

大型语言模型上的用户推理攻击

研究表明，通过对用户数据进行细调的大型语言模型（LLMs）存在用户推测攻击的隐私风险，攻击者可以通过仅需少量用户样本和黑盒访问细调后的 LLMs 来推断用户的数据是否被用于细调，通过限制单个用户的细调样本数量可以减少攻击效果，但也会降低细调数据总量。

Oct, 2023

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

语言模型抗拒对准

本文研究针对大型语言模型的对齐微调对模型的影响，并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练，可能是数量级上的差距，从而导致模型性能迅速下降并最终恢复到预训练阶段的分布，同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性，从而克服大型语言模型对对齐微调的抵抗。

Jun, 2024