多模基础模型的对抗鲁棒性

ICCVAug, 2023

On the Adversarial Robustness of Multi-Modal Foundation Models

Christian Schlarmann, Matthias Hein

TL;DR本文研究了使用图像中的不可察觉攻击来改变多模态基础模型的标题输出，揭示了恶意内容提供者如何利用此方式伤害诚实用户，并强调了部署的多模态基础模型应采取对抗性攻击的对策。

Abstract

multi-modal foundation models combining vision and language models such as Flamingo or GPT-4 have recently gained enormous interest. Alignment of foundation models is used to prevent models from providing toxic o

multi-modal foundation models vision and language models imperceivable attacks on images malicious content providers countermeasures to adversarial attacks

发现论文，激发创造

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱 MiniGPT-4，成功率达到 96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

在真实灰盒子假设下的多模型对抗评估

本研究针对多模态（图像 + 文本）模型的弱点进行分析，并提出了基于部分模型知识和访问下的攻击方法。同时，我们发现对多模态分类进行的攻击比仅仅对单模态文本或图像分类的攻击更强，而我们尝试的对多模态分类器进行的单模态图像攻击比文本的字符增强攻击更为有效。

Nov, 2020

视觉对抗样本破解大型语言模型

本文介绍了在大型语言模型中引入视觉的趋势。讨论了这个趋势的安全和安全风险，指出了高维视觉输入空间本质上是对抗性攻击的理想介质，以及这种趋势的广泛功能使得视觉攻击者有更多的攻击目标。还研究了 MiniGPT-4 对视觉对抗性例子进行了安全机制，并发现对抗性例子可以打破安全机制并生成有害内容。因此，我们强调了对于安全使用视觉语言模型的紧迫需要，需要进行全面的风险评估，强大的防御措施和实施负责任的工作实践。

Jun, 2023

针对对齐语言模型的对抗攻击的基线防御

大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明，文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题：在这个领域中，哪些威胁模型实际上是有用的？基线防御技术在这个新领域中的表现如何？LLM 安全性与计算机视觉有何不同？我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略，讨论了每种策略在各种可行和有效的设置中的情况。特别地，我们研究了三种防御类型：检测（基于困惑度），输入预处理（改写和重标记）和对抗训练。我们讨论了白盒和灰盒设置，并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是，我们在过滤和预处理方面获得了比其他领域（如视觉）预期的更多成功，这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。

Sep, 2023

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

对基础视觉模型的对抗性攻击

本研究通过攻击深度特征表示来操纵开放世界感知模型，以解决封闭集下游任务，并在白盒、黑盒和模型类型迁移的情况下展示攻击的有效性，旨在识别这些模型的关键敌对弱点，以提高未来设计的鲁棒性。

Aug, 2023

插上并祈祷：利用多模态模型的现成组件

多模型系统中对抗嵌入空间攻击，特别是使用预训练编码器，可能导致上下文污染和隐藏提示注入，对系统的行为产生重大影响，因此在插拔式系统中应对其进行全面检查以确保安全性。

Jul, 2023

图像劫持：对抗性图像能在运行时控制生成模型

基于图像输入的视觉语言模型（VLM）存在图像劫持问题，本研究发现了在运行时控制生成模型的对抗性图像劫持，并提出了一种名为 Behavior Matching 的通用方法来创建这种图像劫持，通过对 LLaVA-2 模型进行攻击实验发现，各种攻击方式成功率均在 90% 以上，这些发现对于基础模型的安全性提出了严重的担忧。

Sep, 2023

视觉语言模型的部分再集中软最大值损失函数鲁棒性

通过修改预训练的多模态模型的损失函数，限制前 K 个 softmax 输出，本研究在评估和评分基础上展示了，经过微调后，预训练模型的对抗鲁棒性可以显著提高，抵御常见攻击。后续研究应该探索这种损失函数的输出多样性、泛化性以及鲁棒性与性能之间的权衡关系。本文代码会在接受后提供。

Feb, 2024

多模态代理的对抗攻击

基于视觉和语言的模型对自主多模态代理进行了攻击，展示了新的安全风险，并通过对抗性文本字符串指导基于梯度的扰动来执行对手目标。

Jun, 2024