图像劫持：对抗性图像能在运行时控制生成模型

Sep, 2023

图像劫持：对抗性图像能在运行时控制生成模型

Image Hijacking: Adversarial Images can Control Generative Models at Runtime

Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons

TL;DR基于图像输入的视觉语言模型（VLM）存在图像劫持问题，本研究发现了在运行时控制生成模型的对抗性图像劫持，并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持，通过对 LLaVA-2 模型进行攻击实验发现，各种攻击方式成功率均在 90% 以上，这些发现对于基础模型的安全性提出了严重的担忧。

Abstract

Are foundation models secure from malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, →

foundation models image hijacks adversarial images behavior matching security

发现论文，激发创造

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

在大型语言模型中使用视觉对抗样本错误使用工具

大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险，本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性，同时保持隐秘性，并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击，并在多个维度上表征其性能。研究发现，我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具（准确率约为 98%），同时保持与原始图像的高相似度（约 0.9 SSIM）。此外，通过人工评分和自动化指标，我们发现这些攻击对用户与 LLM 之间的对话（及其语义）没有显著影响。

Oct, 2023

MirrorCheck：视觉语言模型的高效对抗性防御

通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本，并且经过实证评估，我们的方法表现出比基于图像分类领域的基线方法更好的效果，同时我们还将这种方法扩展到分类任务中，并展示了其适应性和模型不可知性，从理论和实证发现来看，我们的方法对自适应攻击具有很强的韧性，使其成为在真实世界中应对对抗威胁的出色防御机制。

Jun, 2024

通过对抗性上下文学习劫持大型语言模型

通过引入一种新的对上下文学习的颠覆性攻击方法，本文展示了一种能够利用 LMLs 来生成针对性响应的方法，并通过对各种任务和数据集的广泛实验结果证明了其有效性。

Nov, 2023

越狱快速攻击：一种针对扩散模型的可控对抗攻击

通过黑盒攻击方法和分类器自由引导的概念，本研究暴露和强调了现有防御机制的脆弱性，这给图像生成社区带来了安全问题。

Apr, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

窃取隐形：通过对抗样本和时间侧信道揭示预训练的卷积神经网络模型

基于对对抗性图像分类模式的观察，我们提出一种用于盗取模型的方法，结合时间侧信道和对抗性图像分类，以指纹识别多个著名的卷积神经网络和 Vision Transformer 架构，该方法可在减少查询次数的同时保持高准确率。

Feb, 2024