VL-Trojan: 自回归视觉语言模型的多模态指令后门攻击

Feb, 2024

VL-Trojan: 自回归视觉语言模型的多模态指令后门攻击

VL-Trojan: Multimodal Instruction Backdoor Attacks against Autoregressive Visual Language Models

Jiawei Liang, Siyuan Liang, Man Luo, Aishan Liu, Dongchen Han...

TL;DR通过 VL-Trojan 攻击，我们成功诱导目标输出，在推理过程中明显超过了基线（+62.52%），并且在各种模型规模和少样本上下文推理场景中展示了鲁棒性。

Abstract

autoregressive visual language models (VLMs) showcase impressive few-shot learning capabilities in a multimodal context. Recently, multimodal instruction tuning has been proposed to further enhance instruction-following

autoregressive visual language models multimodal instruction tuning backdoor attacks instruction-following abilities vl-trojan

发现论文，激发创造

重访大型视觉语言模型的后门攻击

使用指令调优增强大规模视觉语言模型 (LVLMs) 会提高安全风险，因其开放性可能导致后门攻击。本研究首次经验性地考察了指令调优 LVLMs 期间后门攻击的普适性，揭示了在实际场景中大多数后门策略的某些限制。通过定量评估对视觉和文本领域存在偏差的六种典型后门攻击在图像字幕基准测试上的普适性，我们的研究结果表明，攻击的普适性与后门触发器与特定图像 / 模型的不相关性以及触发器模式的偏好相关。此外，我们基于以上关键观察修改了现有的后门攻击方法，在跨域场景的普适性方面取得了显著改进 (+86% 攻击成功率)。值得注意的是，即使没有访问指令数据集，也可以使用极低的污染率 (0.2%) 成功毒化多模态指令集，攻击成功率超过 97%。本研究强调即使是简单的传统后门策略也对 LVLMs 构成严重威胁，需要更多关注和深入研究。

Jun, 2024

双密钥多模式背门用于视觉问答

研究表明，多模态网络容易受到后门攻击，提出了一种称为双重密钥多模态后门攻击的新型攻击，通过视觉触发器优化策略，攻击成功率高达 98％，仅污染 1％的训练数据，最终发布了 TrojVQA，一个大型的干净和 Trojan VQA 模型集合，用于研究防御多模态后门攻击。

Dec, 2021

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

VLAttack：基于预训练模型的视觉 - 语言任务的多模态对抗攻击

本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务，提出了 VLAttack 框架，通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本，实验结果表明该框架在各项任务上攻击成功率最高，揭示了预训练 Vision-Language 模型部署中的一个重要盲点。

Oct, 2023

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023

预训练的特洛伊攻击视觉识别

本研究旨在提高人们对在实际场景中应用预训练视觉模型所面临的潜在威胁的意识，并通过提出预训练特洛伊攻击来展示其在不同下游视觉任务中的有效性。

Dec, 2023

BadCLIP: 多模态对比学习的双嵌入引导后门攻击

本文介绍了一种名为 oolns 的抵抗后门检测和模型优化防御的攻击，通过基于贝叶斯规则的双嵌入引导框架，在自然触发模式中实现了视觉触发模式的文本目标语义近似，并通过优化视觉触发模式与目标视觉特征的一致性对目标样本进行了污染，证明其对现有的后门防御具有显著优势，引发了对多模态对比学习的潜在威胁的关注，并鼓励开发更加健壮的防御机制。

Nov, 2023

ImgTrojan: 用一张图像越狱视觉 - 语言模型

本文提出了一种针对视觉语言模型的新型越狱攻击方法，通过替换原始文本标题为恶意越狱提示，来攻击包含恶意图像的视觉语言模型。通过分析毒素比例和可训练参数位置对攻击成功率的影响，我们设计了两个指标来量化攻击的成功率和隐秘性，提供了一个用于测量攻击效果的基准。通过与基准方法进行比较，我们证明了我们的攻击方法的有效性。

Mar, 2024

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024