利用图像和声音进行多模态 LLMs 中的间接指令注入

Jul, 2023

利用图像和声音进行多模态 LLMs 中的间接指令注入

(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs

Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov

TL;DR图像和声音可被用于多模态 LLMs 中的间接提示和指令注入，攻击者通过对图像或音频进行意义相关的干扰并使其融入其中，从而使模型输出攻击者选择的文本和 / 或遵循攻击者指令的后续对话，我们通过几个概念验证实例来说明这种攻击，针对的模型为 LLaVa 和 PandaGPT。

Abstract

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal llms. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user asks the (unmodified, benign)

multi-modal llms indirect prompt injection adversarial perturbation image blending audio blending

发现论文，激发创造

对大型语言模型间接提示注入攻击的基准测试与防御

通过使用第一个基准 BIPIA 来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法，我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击，导致 ASR 更高。在此基础上，我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法，使大型语言模型能够区分指令和外部内容，并忽略外部内容中的指令。实验结果表明，我们的黑盒防御方法可以有效降低 ASR，但无法完全阻止间接提示注入攻击，而我们的白盒防御方法可以将 ASR 几乎降低到零，对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。

Dec, 2023

应用与集成的大型语言模型新型提示注入威胁的全面分析

本研究讨论了如何通过注入恶意提示，以及从 Web 中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型 (LLMs) 进行 Prompt Injection 攻击。研究表明，这种攻击是实际可行的，需要加强技术进行缓解。

Feb, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

在大型语言模型中使用视觉对抗样本错误使用工具

大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险，本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性，同时保持隐秘性，并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击，并在多个维度上表征其性能。研究发现，我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具（准确率约为 98%），同时保持与原始图像的高相似度（约 0.9 SSIM）。此外，通过人工评分和自动化指标，我们发现这些攻击对用户与 LLM 之间的对话（及其语义）没有显著影响。

Oct, 2023

声音引导的语义图像操作

该论文提出了一种将声音直接编码成多模态（图像 - 文本）嵌入空间并从该空间中操纵图像的框架，该方法使用音频编码器从音频输入中生成潜在的表示，并基于对齐的嵌入使用直接潜在优化方法进行声音引导的图像操纵，实验证明该方法在零样本音频分类和语义级图像分类上优于其他文本和声音引导的最新方法。

Nov, 2021

查询相关图像：大型多模态模型越狱

我们用一种新的视觉提示攻击方法，通过利用与查询相关的图像来越狱开源的大型多模型模型 (LMMs)。我们的研究表明，即使采用了安全对齐的大型语言模型，我们的方法也能轻松攻击 LLMs。通过使用我们提出的攻击技术，我们编制了一个大规模数据集，评估了 12 种先进的 LMMs 在 13 种情景中的弱点，这凸显了存在对抗性攻击的多模型模型的脆弱性。这一发现加强了我们对加强开源 LMMs 安全措施以防止潜在恶意利用的需求。

Nov, 2023

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023

插上并祈祷：利用多模态模型的现成组件

多模型系统中对抗嵌入空间攻击，特别是使用预训练编码器，可能导致上下文污染和隐藏提示注入，对系统的行为产生重大影响，因此在插拔式系统中应对其进行全面检查以确保安全性。

Jul, 2023

基于目标引导的生成式提示注入攻击大型语言模型

通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略（G2PIA），我们最大化纯文本和对抗文本之间的 KL 散度，从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。

Apr, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022