这张图片有几只独角兽？一项用于视觉语言模型的安全评估基准

Nov, 2023

这张图片有几只独角兽？一项用于视觉语言模型的安全评估基准

How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs

Haoqin Tu, Chenhang Cui, Zijun Wang, Yiyang Zhou, Bingchen Zhao...

TL;DR该研究聚焦于 Vision LLMs（VLLMs）在视觉推理中的潜力，从评估性能转移到引入了全面的安全评估套件，包括分布外泛化和对抗鲁棒性。

Abstract

This work focuses on the potential of vision llms (VLLMs) in visual reasoning. Different from prior studies, we shift our focus from evaluating standard performance to introducing a comprehensive safety evaluation

vision llms visual reasoning comprehensive safety evaluation out-of-distribution generalization adversarial robustness

发现论文，激发创造

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

视觉语言模型的安全对齐

通过在两阶段训练过程中添加安全模块，包括安全投影仪、安全标记和安全头，我们提高了现有视觉语言模型的视觉安全对齐，有效提高了模型对危险图像的防御。

May, 2024

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

LLavaGuard: 基于 VLM 的视觉数据集整理与安全评估保护

通过引入基于 VLM 的安全模型 LlavaGuard，我们设计了可用于评估视觉内容的安全性合规性的多功能框架。我们使用高质量的视觉数据集对 LlavaGuard 进行了调试，其中涵盖了广泛的安全分类工具以在上下文感知的安全风险中进行 VLM 的调整，进而为其提供全面的信息响应，包括安全评级、违反的安全类别和深入的解释，其灵活的分类系统使得 LlavaGuard 可以根据不同场景进行定制化。通过实验证明了 LlavaGuard 在复杂的真实应用中的能力，表现出超越 GPT-4 等基准模型的最新性能，同时提供了从 7B 到 34B 参数的检查点，公开提供我们的数据集和模型权重，邀请研究人员进一步探索和满足不同社区和环境的需求。

Jun, 2024

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

AVIBench: 评估大型视觉语言模型在对抗性视觉指导下的稳健性

评估大规模视觉 - 语言模型（LVLMs）对敌对性视觉指令的稳健性和内容偏见的重要性，引入了 AVIBench 框架，通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有 LVLMs 存在漏洞和内在偏见，强调提高 LVLMs 的稳健性、安全性和公平性的重要性。

Mar, 2024

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

利用 Yolo-World 目标检测模型和专门的提示，本文探讨了大型语言模型（LLMs）在零样本异常检测中的潜力，实现了识别摄像头捕获帧中的异常并生成简洁的音频描述，从而在复杂环境中协助安全的视觉导航。此外，本文还探讨了不同提示组件的性能贡献，并为视觉辅助性的未来改进提供了展望，并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。

Mar, 2024