学会看但忘记跟随：视觉指令调整使 LLMs 更容易遭受越狱攻击

May, 2024

学会看但忘记跟随：视觉指令调整使 LLMs 更容易遭受越狱攻击

Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks

Georgios Pantazopoulos, Amit Parekh, Malvina Nikandrou, Alessandro Suglia

TL;DR研究通过图像理解扩展大型语言模型（LLMs）已经产生了高性能的视觉语言模型（VLMs）。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注，但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响，每种 VLM 都使用了不同的建模方法。通过将每个 VLM 与其相应的 LLM 骨干进行比较，我们发现每个 VLM 更容易受到越狱的影响。我们认为这是从视觉指导调整中产生的对 LLM 安全规则的遗忘效应，这是一个不可取的结果。因此，我们提供了基于评估策略的未来工作建议，旨在凸显 VLM 的弱点，并在视觉指导调整期间考虑安全措施。

Abstract

Augmenting large language models (LLMs) with image-understanding capabilities has resulted in a boom of high-performing vision-language models

large language models image-understanding vision-language models jailbreaking safety measures

发现论文，激发创造

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

引入视觉模态的高效 LLM 越狱

该研究聚焦于针对大型语言模型的越狱攻击，以激发其对有害用户查询的回应中生成令人不悦内容。通过将视觉模块融入目标语言模型，构建一个多模态大型语言模型（MLLM），我们使用高效的 MLLM 越狱方法生成越狱嵌入 embJS，并将其转换为文本空间以促进对目标语言模型的越狱。与直接越狱语言模型相比，我们的方法更加高效，因为 MLLM 比纯语言模型更容易越狱。此外，为提高越狱成功率，我们提出了一种图像 - 文本语义匹配方案以识别适当的初始输入。广泛的实验证明，我们的方法在效率和有效性方面超越了当前最先进的方法。此外，我们的方法具有优越的跨类别越狱能力。

May, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

JailbreakLens：针对大型语言模型的越狱攻击的可视化分析

通过与领域专家合作，我们提出了一个辅助框架来简化对繁琐的破解分析过程，并设计了一个视觉分析系统，帮助用户评估模型安全性并识别模型弱点。

Apr, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式

本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。

Jun, 2024