Jun, 2024

MOSSBench:你的多模态语言模型对安全查询过于敏感吗?

TL;DR通过研究发现,高级多模态大型语言模型(MLLMs)和人类一样容易出现认知失真,即在不同情境下对特定刺激作出夸大的反应。在研究中,我们识别出三类触发现有 MLLMs 过度敏感的刺激:夸大风险、否定伤害和违反直觉的解释。通过提出多模态过敏性基准 (MOSSBench) 来系统评估 MLLMs 对这些刺激的过度敏感性。实证研究发现,最先进的 MLLMs 存在过度敏感的问题,并且安全性越高的模型越容易出现敏感性。不同类型的刺激在 MLLMs 响应过程的感知、意图推理和安全判断阶段容易引发错误。这些发现突出了在现实世界应用中提高 MLLMs 可靠性的需求,需要更加精细的安全机制来平衡谨慎性和情境上适当的回应。