Jan, 2025

通过打乱不一致性破解多模态大型语言模型

TL;DR本研究针对多模态大型语言模型(MLLMs)在安全机制方面的脆弱性,提出了一种新颖的攻击方法。研究发现,MLLMs在处理打乱的有害指令时存在理解能力与安全能力之间的不一致性,从而导致安全机制易被绕过。创新性地提出的SI-Attack在多个基准测试中显著提高了攻击成功率,特别是在商业闭源MLLMs上,如GPT-4o和Claude-3.5-Sonnet。