Jun, 2024

重访大型视觉语言模型的后门攻击

TL;DR使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险,因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性,揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性,我们的研究结果表明,攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外,我们基于以上关键观察修改了现有的后门攻击方法,在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是,即使没有访问指令数据集,也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集,攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁,需要更多关注和深入研究。