图像劫持:对抗性图像能在运行时控制生成模型
本文提出了一种针对视觉语言模型的新型越狱攻击方法,通过替换原始文本标题为恶意越狱提示,来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响,我们设计了两个指标来量化攻击的成功率和隐秘性,提供了一个用于测量攻击效果的基准。通过与基准方法进行比较,我们证明了我们的攻击方法的有效性。
Mar, 2024
本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险,指出了高维视觉输入空间本质上是对抗性攻击的理想介质,以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制,并发现对抗性例子可以打破安全机制并生成有害内容。因此,我们强调了对于安全使用视觉语言模型的紧迫需要,需要进行全面的风险评估,强大的防御措施和实施负责任的工作实践。
Jun, 2023
大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具(准确率约为 98%),同时保持与原始图像的高相似度(约 0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与 LLM 之间的对话(及其语义)没有显著影响。
Oct, 2023
通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像,并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本,我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本,并且经过实证评估,我们的方法表现出比基于图像分类领域的基线方法更好的效果,同时我们还将这种方法扩展到分类任务中,并展示了其适应性和模型不可知性,从理论和实证发现来看,我们的方法对自适应攻击具有很强的韧性,使其成为在真实世界中应对对抗威胁的出色防御机制。
Jun, 2024
通过引入一种新的对上下文学习的颠覆性攻击方法,本文展示了一种能够利用 LMLs 来生成针对性响应的方法,并通过对各种任务和数据集的广泛实验结果证明了其有效性。
Nov, 2023
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。
May, 2024
基于对对抗性图像分类模式的观察,我们提出一种用于盗取模型的方法,结合时间侧信道和对抗性图像分类,以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构,该方法可在减少查询次数的同时保持高准确率。
Feb, 2024