疫苗：针对大型语言模型的扰动感知对齐

Feb, 2024

疫苗：针对大型语言模型的扰动感知对齐

Vaccine: Perturbation-aware Alignment for Large Language Model

Tiansheng Huang, Sihao Hu, Ling Liu

TL;DR新型的定型服务范式引入了大型语言模型（LLMs）的新攻击面：用户上传的少量有害数据可以轻易地欺骗定型，从而产生对齐破坏的模型。我们进行了实证分析，揭示了一种可能引起对齐破坏效应的有害嵌入漂移现象。在我们的研究发现的启示下，我们提出了一种名为 Vaccine 的扰动感知对齐技术，以减轻用户定型的安全风险。疫苗的核心思想是通过在对齐阶段逐步添加精心设计的扰动，产生不变的隐藏嵌入。这使得嵌入能够抵御定型阶段不经过消毒处理的用户数据所带来的有害扰动。我们在开源主流 LLMs（例如 Llama2、Opt、Vicuna）上的实验结果表明，Vaccine 可以增强对抗由有害提示引起的嵌入漂移而保留对良性提示的推理能力。我们的代码可在 https://github.com/git-disl/Vaccine 获取。

Abstract

The new paradigm of finetuning-as-a-service introduces a new attack surface for Large Language Models (LLMs): a few harmful data uploaded by users can easily trick the finetuning to produce an alignment-broken model

finetuning-as-a-service harmful embedding drift alignment-broken model vaccine perturbation-aware alignment technique

发现论文，激发创造

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

大规模语言模型背景注入中的隐蔽而持久的不对齐

通过背门注入，在大型语言模型上进行隐秘而持续的非对准操作，可以成功通过安全评估，同时对抗重新对齐防御。

Nov, 2023

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

面向对齐语言模型的通用和可迁移对抗攻击

通过贪婪和基于梯度的搜索技术，自动产生敌对性后缀，实现对齐语言模型的攻击；我们发现这种攻击是可转移的，可以应用于各种公开发布的对齐语言模型，从而引发对如何防止生成不良信息的重要问题。

Jul, 2023

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

鲁棒即插即用适应性的解耦对齐

我们介绍了一种低资源安全增强方法，用于对齐大型语言模型（LLMs），无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息，并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法，我们的方法在有害问题数据集上显著提高了平均防御成功率，约为 14.41％，最高可达 51.39％，在 17 个未对齐的预训练 LLMs 中，而不会损害性能。

Jun, 2024

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024