Oct, 2023

在大型语言模型中使用视觉对抗样本错误使用工具

TL;DR大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具(准确率约为 98%),同时保持与原始图像的高相似度(约 0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与 LLM 之间的对话(及其语义)没有显著影响。