视觉伪造技术 LLMs 自我生成的字体攻击

Feb, 2024

视觉伪造技术 LLMs 自我生成的字体攻击

Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks

Maan Qraitem, Nazia Tasnim, Kate Saenko, Bryan A. Plummer

TL;DR大视觉 - 语言模型（LVLMs）对印刷攻击的脆弱性进行了研究，并引入了一种新的基准测试和一种更有效的自动生成印刷攻击方法。

Abstract

Recently, significant progress has been made on large vision-language models (LVLMs); a new class of VL models that make use of large pre-trained language models. Yet, their vulnerability to →

large vision-language models typographic attacks vulnerability benchmark self-generated typographic attacks

发现论文，激发创造

大型多模态模型中的排版攻击可以通过更多信息丰富的提示得到缓解

大型多模型（LMMs）依赖于预训练的视觉语言模型（VLMs）和大型语言模型（LLMs）在视觉和语言的联合空间中执行各种多模态任务的出色新颖能力。然而，印刷攻击也被确认为对 LMMs 的安全漏洞，而我们首次全面调查了 LMMs 对印刷字体的易受干扰性，并证明了 LMMs 可以利用更丰富的提示信息从嵌入中区分视觉内容和印刷字体。最后，我们提出了一种提示信息增强方法，可以有效减轻印刷字体的影响。

Feb, 2024

面向自动驾驶中基于视觉和语言模型的可转移攻击的研究

借助于大规模视觉 - 语言模型，本研究探索了针对自动驾驶系统的印刷攻击，重点关注真实交通场景中这些攻击的部署方式及其对决策自主性的潜在影响，对于已有的大规模视觉 - 语言模型表示特别有害的印刷攻击引起了社区的关注。

May, 2024

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

VLAttack：基于预训练模型的视觉 - 语言任务的多模态对抗攻击

本文研究了使用图像和文本扰动生成对黑盒微调模型进行攻击的新的实用任务，提出了 VLAttack 框架，通过融合单模态和多模态层次的图像和文本扰动来生成对抗样本，实验结果表明该框架在各项任务上攻击成功率最高，揭示了预训练 Vision-Language 模型部署中的一个重要盲点。

Oct, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024

MirrorCheck：视觉语言模型的高效对抗性防御

通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本，并且经过实证评估，我们的方法表现出比基于图像分类领域的基线方法更好的效果，同时我们还将这种方法扩展到分类任务中，并展示了其适应性和模型不可知性，从理论和实证发现来看，我们的方法对自适应攻击具有很强的韧性，使其成为在真实世界中应对对抗威胁的出色防御机制。

Jun, 2024

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

InstructTA：针对大型视觉语言模型的指导式目标攻击

通过将目标响应转化为目标图像，并从目标响应推断出合理的指令，我们提出了一种以指令为导向的有针对性攻击方法，该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征，优化对抗示例以最小化这两个特征之间的距离，从而提高攻击性能和可迁移性。

Dec, 2023

AVIBench: 评估大型视觉语言模型在对抗性视觉指导下的稳健性

评估大规模视觉 - 语言模型（LVLMs）对敌对性视觉指令的稳健性和内容偏见的重要性，引入了 AVIBench 框架，通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有 LVLMs 存在漏洞和内在偏见，强调提高 LVLMs 的稳健性、安全性和公平性的重要性。

Mar, 2024