Sep, 2023

图像劫持:对抗性图像能在运行时控制生成模型

TL;DR基于图像输入的视觉语言模型(VLM)存在图像劫持问题,本研究发现了在运行时控制生成模型的对抗性图像劫持,并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持,通过对 LLaVA-2 模型进行攻击实验发现,各种攻击方式成功率均在 90% 以上,这些发现对于基础模型的安全性提出了严重的担忧。