面向视觉语言预训练模型的对抗攻击
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 CLIP 的对抗性鲁棒性,甚至在图像攻击的背景下,经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。
Apr, 2024
本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务,提出了 VLAttack 框架,通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本,实验结果表明该框架在各项任务上攻击成功率最高,揭示了预训练 Vision-Language 模型部署中的一个重要盲点。
Oct, 2023
通过利用模态交互机制,我们提出了一种名为 CMI-Attack 的新型攻击方法,在保持语义不变的同时,利用嵌入指导和交互增强攻击文本的嵌入层,并利用交互图像梯度增强对文本和图像的扰动约束。在 Flickr30K 数据集的图像 - 文本检索任务中,CMI-Attack 相对于现有方法提高了 ALBEF、TCL、CLIP_ViT 和 CLIP_CNN 的转移成功率 8.11%-16.75%。此外,CMI-Attack 在跨任务泛化情景中也表现出卓越性能,填补了 Vision-Language 预训练模型转移攻击领域的研究空白,揭示了模态交互对增强对抗鲁棒性的重要性。
Mar, 2024
通过对最近的 VLP 模型的对抗性传递性进行第一次研究,我们观察到现有方法在传递性方面表现较低,这部分原因是由于对跨模态交互的利用不足。因此,我们提出了一种高传递性的集合级引导攻击(SGA)方法,该方法充分利用模态交互,并结合保留对齐的增强和跨模态引导。实验结果表明,SGA 能够生成强力传递到不同 VLP 模型上的对抗性示例,在多个下游视觉语言任务中,SGA 显著增强了从 ALBEF 到 TCL 的传递攻击的成功率,比现有技术至少提高了 9.78%,最高可达 30.21%。
Jul, 2023
我们展示了 Vision-Language Pre-training(VLP)模型对新型的通用对抗扰动(UAP)攻击的脆弱性,并提出了一种基于多模态对齐的 Contrastive-training Perturbation Generator 方法,该方法在各种 VLP 模型和多模态任务中展现出卓越的攻击性能,并表现出出色的黑盒可迁移性。
Jun, 2024
通过总结和分析现有研究,我们确定了可以影响 Visual-Language Pre-training 模型上的转移攻击效果的两个因素:跨模态交互和数据多样性。基于这些观察,我们提出了一种新的基于自我增强的转移攻击方法,称为 SA-Attack。我们在 Flickr30K 和 COCO 数据集上的实验证实了我们方法的有效性。
Dec, 2023
本研究评估了开源大型视觉 - 语言模型的鲁棒性,发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解,并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。
May, 2023
通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像,并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本,我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本,并且经过实证评估,我们的方法表现出比基于图像分类领域的基线方法更好的效果,同时我们还将这种方法扩展到分类任务中,并展示了其适应性和模型不可知性,从理论和实证发现来看,我们的方法对自适应攻击具有很强的韧性,使其成为在真实世界中应对对抗威胁的出色防御机制。
Jun, 2024
通过修改预训练的多模态模型的损失函数,限制前 K 个 softmax 输出,本研究在评估和评分基础上展示了,经过微调后,预训练模型的对抗鲁棒性可以显著提高,抵御常见攻击。后续研究应该探索这种损失函数的输出多样性、泛化性以及鲁棒性与性能之间的权衡关系。本文代码会在接受后提供。
Feb, 2024