MOSSBench：你的多模态语言模型对安全查询过于敏感吗？

Jun, 2024

MOSSBench：你的多模态语言模型对安全查询过于敏感吗？

MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?

Xirui Li, Hengguang Zhou, Ruochen Wang, Tianyi Zhou, Minhao Cheng...

TL;DR通过研究发现，高级多模态大型语言模型（MLLMs）和人类一样容易出现认知失真，即在不同情境下对特定刺激作出夸大的反应。在研究中，我们识别出三类触发现有 MLLMs 过度敏感的刺激：夸大风险、否定伤害和违反直觉的解释。通过提出多模态过敏性基准 (MOSSBench) 来系统评估 MLLMs 对这些刺激的过度敏感性。实证研究发现，最先进的 MLLMs 存在过度敏感的问题，并且安全性越高的模型越容易出现敏感性。不同类型的刺激在 MLLMs 响应过程的感知、意图推理和安全判断阶段容易引发错误。这些发现突出了在现实世界应用中提高 MLLMs 可靠性的需求，需要更加精细的安全机制来平衡谨慎性和情境上适当的回应。

Abstract

Humans are prone to cognitive distortions -- biased thinking patterns that lead to exaggerated responses to specific stimuli, albeit in very different contexts. This paper demonstrates that advanced Multimodal Large Language Models (MLLMs) exhibit similar tendencies. While these models

cognitive distortions multimodal large language models oversensitivity safety mechanisms benign multimodal queries

发现论文，激发创造

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

多模态大型语言模型在图像和文本上的安全性

对多模态大型语言模型的安全进行评估、攻击和防御的系统性调查，包括对图像和文本上的安全问题的研究和讨论。

Feb, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

从再现性伤害到服务质量伤害：一项关于 “羊驼 2” 安全保障的案例研究

通过对 Llama 2 的案例进行研究，评估了安全措施对已减轻的偏见的效果，并发现安全与有益性的权衡在某些人群中更加明显，可能对边缘化群体造成服务质量损害。

Mar, 2024

MM-SpuBench: 对多模态 LLMs 中偶发偏见的更好理解

在深度学习模型中，单一模态数据的训练容易导致假的偏见，而多模态大型语言模型（MLLMs）在综合视觉和语言模型方面展示了强大的能力。本文分析了 MLLMs 中的假偏见，揭示了当视觉模型中的偏见影响 MLLMs 中视觉和文本符号之间的对齐时，特定的测试数据模式会表现出这一问题，并通过引入 MM-SpuBench、一个全面的视觉问答（VQA）评估基准，从五个开源图像数据集中评估了现有最先进的 MLLMs。我们的研究结果显示了这些模型对于假关联的依赖性的持久存在，并强调了减轻假的偏见的新方法的迫切性。为了支持 MLLMs 的稳健性研究，我们在该网址发布了我们的 VQA 基准。

Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

大型语言模型中的过度臃肿导航

通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素，本研究发现模型内部存在着捷径，强调安全性的提示将加剧过度关注有害单词，并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象，实证结果表明我们的方法平均拒绝率减少了 20%，对安全性几乎没有影响。

Jan, 2024