对多模态模型的对抗攻击

Sep, 2024

Adversarial Attacks to Multi-Modal Models

Zhihao Dou, Xin Hu, Haibo Yang, Zhuqing Liu, Minghong Fang

TL;DR本研究解决了多模态模型在攻击中表现不足的问题，提出了创新的CrossFire方法，通过将攻击者选择的目标输入转化为原始图像或音频文件的匹配格式，并将攻击形式化为优化问题，以最小化嵌入之间的角度偏差。实验结果显示，CrossFire显著优于现有攻击方法，能够有效操控下游任务，同时当前的防御策略无法有效抵御CrossFire。

Abstract

Multi-Modal Models have gained significant attention due to their powerful capabilities. These models effectively align embeddings across diverse data modalities, showcasing superior performance in downstream tasks compared to their unimodal counterparts. Recent study showed that the a

发现论文，激发创造

利用图像和声音进行多模态LLMs中的间接指令注入

图像和声音可被用于多模态LLMs中的间接提示和指令注入，攻击者通过对图像或音频进行意义相关的干扰并使其融入其中，从而使模型输出攻击者选择的文本和/或遵循攻击者指令的后续对话，我们通过几个概念验证实例来说明这种攻击，针对的模型为LLaVa和PandaGPT。

Jul, 2023

插上并祈祷：利用多模态模型的现成组件

多模型系统中对抗嵌入空间攻击，特别是使用预训练编码器，可能导致上下文污染和隐藏提示注入，对系统的行为产生重大影响，因此在插拔式系统中应对其进行全面检查以确保安全性。

Jul, 2023

多模基础模型的对抗鲁棒性

本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出，揭示了恶意内容提供者如何利用此方式伤害诚实用户，并强调了部署的多模态基础模型应采取对抗性攻击的对策。

Aug, 2023

Ceci n'est pas une pomme: 多模态嵌入中的对抗幻觉

多模态编码器、敌对幻觉、嵌入空间、接近度、零样本分类。

Aug, 2023

VLAttack：基于预训练模型的视觉-语言任务的多模态对抗攻击

本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务，提出了VLAttack框架，通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本，实验结果表明该框架在各项任务上攻击成功率最高，揭示了预训练Vision-Language模型部署中的一个重要盲点。

Oct, 2023

语义扰动下的互模态对抗攻击

我们提出了一种新的方法，在互模态优化方案中生成对抗性攻击，利用预训练的CLIP模型进行视觉攻击和文本防御，并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证，表明我们的互模态攻击策略能够有效产生高可转移攻击，并且优于最先进的攻击方法，可作为即插即用解决方案。

Dec, 2023

通过协作多模态交互改善视觉-语言预训练模型的敌对可迁移性

通过利用模态交互机制，我们提出了一种名为CMI-Attack的新型攻击方法，在保持语义不变的同时，利用嵌入指导和交互增强攻击文本的嵌入层，并利用交互图像梯度增强对文本和图像的扰动约束。在Flickr30K数据集的图像-文本检索任务中，CMI-Attack相对于现有方法提高了ALBEF、TCL、CLIP_ViT和CLIP_CNN的转移成功率8.11%-16.75%。此外，CMI-Attack在跨任务泛化情景中也表现出卓越性能，填补了Vision-Language预训练模型转移攻击领域的研究空白，揭示了模态交互对增强对抗鲁棒性的重要性。

Mar, 2024

MMCert：多模态模型的可证明防御机制抵御对抗攻击

提出了MMCert，这是对多模态模型实施机器学习攻击的第一个认证防御方法，并通过实验结果显示其优于现有认证方法。

Mar, 2024

基于梯度进化多形式优化的跨模态攻击增强

本研究解决了跨模态对抗攻击缺乏有效性的问题，提出了多形式攻击策略，采用基于梯度进化的双层优化框架，以实现不同模态之间的高效扰动传递。通过在多个异构数据集上的广泛测试，结果表明多形式攻击在增强对抗攻击的可转移性方面优于现有技术，为跨模态系统的安全漏洞理解提供了新的视角。

Sep, 2024

BadCM：针对跨模态学习的隐形后门攻击

本研究针对当前跨模态学习中后门攻击尚属探索不足的现状，提出了一种新颖的双边后门框架（BadCM），旨在实现对多模态攻击场景的有效应对。通过开发跨模态挖掘方案，捕捉模态不变组件并注入触发模式，证明了该方法在多个应用中的有效性，且能够有效规避现有的后门防御措施。

Oct, 2024