MMCert:多模态模型的可证明防御机制抵御对抗攻击
多模态模型容易受到单模态攻击和缺失条件的干扰,为了克服这些干扰,需要具备鲁棒的多模态表示。本文通过理论研究发现,较大的单模态表示边界和更可靠的模态融合是实现更高鲁棒性的重要组成部分。基于这一发现,引入了一种训练过程称为可证明鲁棒的多模态训练 (Certifiable Robust Multi-modal Training,CRMT),该方法可以明显提高鲁棒性的可信度和灵活性。
Feb, 2024
本研究针对多模态(图像 + 文本)模型的弱点进行分析,并提出了基于部分模型知识和访问下的攻击方法。同时,我们发现对多模态分类进行的攻击比仅仅对单模态文本或图像分类的攻击更强,而我们尝试的对多模态分类器进行的单模态图像攻击比文本的字符增强攻击更为有效。
Nov, 2020
通过对不同攻击方式的全面研究,本文发现大型多模态模型对于视觉对抗性输入并不具备鲁棒性,但给模型提供上下文(例如问答中的问题)可以降低视觉对抗性输入的影响。该研究还提出了一种新的真实世界图像分类方法,称为查询分解,通过将存在性查询融入输入提示中,观察到攻击的效果减弱和图像分类准确性的提高,从而对多模态系统在对抗环境中增强韧性方面提供了开创性的研究。
Dec, 2023
本研究旨在分析多模态神经网络在单模态最坏情况下 (即对抗性攻击) 的鲁棒性,并提出了一种对抗性融合策略,该策略与现有方法相比,可显著提高单源鲁棒性,并在不影响干净数据性能的情况下,在多种多模态任务上实现了良好的表现。
Jun, 2022
本文提出了一种新的多模态对比方法,以无单模预测的弱监督下探索更可靠的多模态表示,实验证明该方法优于当前最先进的多模态方法,适用于图像 - 文本分类。
May, 2023
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。
Apr, 2023
探究了目前多模态融合模型是否利用补充信息来防御对抗攻击,通过在 MFNet 上应用 FGSM 和 PGD 等对抗攻击进行实验验证,发现多模态融合模型在对抗攻击方面仍然存在脆弱性。
May, 2020
我们提出了一种新的方法,在互模态优化方案中生成对抗性攻击,利用预训练的 CLIP 模型进行视觉攻击和文本防御,并通过迭代训练策略实现攻击的转移性。我们的方法在多个基准数据集上得到了验证,表明我们的互模态攻击策略能够有效产生高可转移攻击,并且优于最先进的攻击方法,可作为即插即用解决方案。
Dec, 2023
多模态大型语言模型(MLLMs)的整合增强了其功能,但也带来了安全漏洞,本研究旨在分析并总结 MLLMs 的攻击和防御机制,并提出未来研究的建议,以深化对 MLLM 安全挑战的学术理解和发展可信赖的 MLLM 系统。
Apr, 2024
本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出,揭示了恶意内容提供者如何利用此方式伤害诚实用户,并强调了部署的多模态基础模型应采取对抗性攻击的对策。
Aug, 2023