Jun, 2024

MirrorCheck:视觉语言模型的高效对抗性防御

TL;DR通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像,并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本,我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本,并且经过实证评估,我们的方法表现出比基于图像分类领域的基线方法更好的效果,同时我们还将这种方法扩展到分类任务中,并展示了其适应性和模型不可知性,从理论和实证发现来看,我们的方法对自适应攻击具有很强的韧性,使其成为在真实世界中应对对抗威胁的出色防御机制。