对多模态模型的对抗攻击
图像和声音可被用于多模态LLMs中的间接提示和指令注入,攻击者通过对图像或音频进行意义相关的干扰并使其融入其中,从而使模型输出攻击者选择的文本和/或遵循攻击者指令的后续对话,我们通过几个概念验证实例来说明这种攻击,针对的模型为LLaVa和PandaGPT。
Jul, 2023
多模型系统中对抗嵌入空间攻击,特别是使用预训练编码器,可能导致上下文污染和隐藏提示注入,对系统的行为产生重大影响,因此在插拔式系统中应对其进行全面检查以确保安全性。
Jul, 2023
本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出,揭示了恶意内容提供者如何利用此方式伤害诚实用户,并强调了部署的多模态基础模型应采取对抗性攻击的对策。
Aug, 2023
本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务,提出了VLAttack框架,通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本,实验结果表明该框架在各项任务上攻击成功率最高,揭示了预训练Vision-Language模型部署中的一个重要盲点。
Oct, 2023
我们提出了一种新的方法,在互模态优化方案中生成对抗性攻击,利用预训练的CLIP模型进行视觉攻击和文本防御,并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证,表明我们的互模态攻击策略能够有效产生高可转移攻击,并且优于最先进的攻击方法,可作为即插即用解决方案。
Dec, 2023
通过利用模态交互机制,我们提出了一种名为CMI-Attack的新型攻击方法,在保持语义不变的同时,利用嵌入指导和交互增强攻击文本的嵌入层,并利用交互图像梯度增强对文本和图像的扰动约束。在Flickr30K数据集的图像-文本检索任务中,CMI-Attack相对于现有方法提高了ALBEF、TCL、CLIP_ViT和CLIP_CNN的转移成功率8.11%-16.75%。此外,CMI-Attack在跨任务泛化情景中也表现出卓越性能,填补了Vision-Language预训练模型转移攻击领域的研究空白,揭示了模态交互对增强对抗鲁棒性的重要性。
Mar, 2024
本研究解决了跨模态对抗攻击缺乏有效性的问题,提出了多形式攻击策略,采用基于梯度进化的双层优化框架,以实现不同模态之间的高效扰动传递。通过在多个异构数据集上的广泛测试,结果表明多形式攻击在增强对抗攻击的可转移性方面优于现有技术,为跨模态系统的安全漏洞理解提供了新的视角。
Sep, 2024
本研究针对当前跨模态学习中后门攻击尚属探索不足的现状,提出了一种新颖的双边后门框架(BadCM),旨在实现对多模态攻击场景的有效应对。通过开发跨模态挖掘方案,捕捉模态不变组件并注入触发模式,证明了该方法在多个应用中的有效性,且能够有效规避现有的后门防御措施。
Oct, 2024