Dec, 2023

InstructTA:针对大型视觉语言模型的指导式目标攻击

TL;DR通过将目标响应转化为目标图像,并从目标响应推断出合理的指令,我们提出了一种以指令为导向的有针对性攻击方法,该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征,优化对抗示例以最小化这两个特征之间的距离,从而提高攻击性能和可迁移性。