视觉语言模型的安全对齐

May, 2024

Safety Alignment for Vision Language Models

Zhendong Liu, Yuanbi Nie, Yingshui Tan, Xiangyu Yue, Qiushi Cui...

TL;DR通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

Abstract

Benefiting from the powerful capabilities of large language models (LLMs), pre-trained visual encoder models connected to an LLMs can realize Vision Language Models (VLMs). However, existing research shows that the visual modality of VLMs is vulnerable, with attackers easily bypassing

large language models vision language models safety alignment risky images multimodal datasets

发现论文，激发创造

红队模拟可视化语言模型

研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距，结果显示这些 VLM 在不同程度上面临红队挑战，并且与 GPT-4V 相比，性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型，性能提高了 10% 以上，并显示出其他基于 LLaVA 的模型无法达到的性能，同时产生的数据对性能并无明显下降。

Jan, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

跨模态安全对齐：文本消除是否足够？

将新的模态集成到大型语言模型（LLMs）中，如视觉 - 语言模型（VLMs），在绕过现有的安全训练技术（如 SFT 和 RLHF）的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐，实验证明在 VLMs 中进行文本反学习显著减少攻击成功率（ASR）至少低于 8％，甚至在某些情况下低至近 2％，同时保留实用性。

May, 2024

SPA-VL：用于视觉语言模型的全面安全偏好对齐数据集

提出了一种名为 SPA-VL 的视觉语言模型安全偏好对齐数据集，通过在此数据集上使用对齐技术进行训练，可以显著提高模型在无害性和有益性方面的表现，同时保持其核心能力。

Jun, 2024

这张图片有几只独角兽？一项用于视觉语言模型的安全评估基准

该研究聚焦于 Vision LLMs（VLLMs）在视觉推理中的潜力，从评估性能转移到引入了全面的安全评估套件，包括分布外泛化和对抗鲁棒性。

Nov, 2023

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

关于在机器人中部署 LLMs/VLMs 的安全问题：凸显风险和脆弱性

通过检查最近在大型语言模型（LLMs）和视觉语言模型（VLMs）与机器人技术交叉领域的工作，我们展示了将大型语言模型和视觉语言模型整合到机器人应用中所涉及的稳健性和安全性的关键问题。我们定义并提供了几种可能的对抗性攻击的例子，并在三个重要的机器人框架上进行了实验，这些机器人框架集成了一个语言模型，包括 KnowNo VIMA 和 Instruct2Act，以评估它们对这些攻击的易感性。我们的实证研究结果显示出 LLM/VLM-robot 集成系统的一个显著的脆弱性：简单的对抗性攻击可以显著削弱 LLM/VLM-robot 集成系统的有效性。特别是，在提示性攻击下，我们的数据显示出了平均性能下降 21.2％，而在感知攻击下更为严重，达到 30.2％。这些结果强调了确保部署先进的 LLM/VLM 基础机器人系统的安全性和可靠性的关键需求。

Feb, 2024

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

确保安全和高质量的输出：面向语言模型的指南库方法

为了解决大型语言模型存在的偏见内容生成和隐私问题，研究引入了 Guide-Align 方法，该方法通过安全训练模型识别潜在风险并建立指南和模型库，然后用于新输入的相关指导，以确保安全和高质量输出，还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量，尤其是在 13 亿参数下，优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。

Mar, 2024

LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

通过引入基于 VLM 的安全模型 LlavaGuard，我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试，其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整，进而为其提供全面的信息响应，包括安全评级、违反的安全类别和深入的解释，其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力，表现出超越 GPT-4 等基准模型的最新性能，同时提供了从 7B 到 34B 参数的检查点，公开提供我们的数据集和模型权重，邀请研究人员进一步探索和满足不同社区和环境的需求。

Jun, 2024