多模态大型语言模型的视觉定位对抗鲁棒性
本文提出了一种新的算法 Show-and-Fool,用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础,该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明,我们的算法可以成功地制作出视觉相似的对抗性例子,对其他图像字幕系统高度可传递,并导致了视觉语言基础的新型健壮性影响和新的洞察。
Dec, 2017
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 CLIP 的对抗性鲁棒性,甚至在图像攻击的背景下,经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。
Apr, 2024
本研究针对视觉 - 语言预训练模型(VLP)的鲁棒性问题进行研究,提出了一种名为协作多模态对抗攻击(Co-Attack)的新型攻击方法,以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识,为其在更多实际场景中的安全可靠部署做出了贡献。
Jun, 2022
通过对不同攻击方式的全面研究,本文发现大型多模态模型对于视觉对抗性输入并不具备鲁棒性,但给模型提供上下文(例如问答中的问题)可以降低视觉对抗性输入的影响。该研究还提出了一种新的真实世界图像分类方法,称为查询分解,通过将存在性查询融入输入提示中,观察到攻击的效果减弱和图像分类准确性的提高,从而对多模态系统在对抗环境中增强韧性方面提供了开创性的研究。
Dec, 2023
本研究评估了开源大型视觉 - 语言模型的鲁棒性,发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解,并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。
May, 2023
提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该模型在多个基准测试中取得了最先进的结果,包括多模态参考分割和区域级参考表达生成。
Mar, 2024
通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像,并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本,我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本,并且经过实证评估,我们的方法表现出比基于图像分类领域的基线方法更好的效果,同时我们还将这种方法扩展到分类任务中,并展示了其适应性和模型不可知性,从理论和实证发现来看,我们的方法对自适应攻击具有很强的韧性,使其成为在真实世界中应对对抗威胁的出色防御机制。
Jun, 2024
大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具(准确率约为 98%),同时保持与原始图像的高相似度(约 0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与 LLM 之间的对话(及其语义)没有显著影响。
Oct, 2023
通过对大规模视觉语言模型的攻击,我们提出了一种综合性的策略,该策略同时攻击文本和图像模态,以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明,我们的通用攻击策略可以有效地越狱 MiniGPT-4,成功率达到 96%,突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。
May, 2024