通过强健编码器增强视觉-语言模型的安全性以抵御越狱和对抗攻击

Sep, 2024

通过强健编码器增强视觉-语言模型的安全性以抵御越狱和对抗攻击

Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

Md Zarif Hossain, Ahmed Imteaj

TL;DR本研究解决了大型视觉-语言模型（LVLMs）在面临越狱和对抗攻击时的脆弱性问题。提出的Sim-CLIP+防御机制通过利用Siamese架构对CLIP视觉编码器进行对抗微调，显著提升了模型的抗攻击能力。实验结果表明，Sim-CLIP+在保持高准确率的同时，有效抵御了多种攻击方式，具有良好的实际应用价值。

Abstract

Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to Adversarial Attacks, part

发现论文，激发创造

对抗攻击下的稳健对比语言-图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像-字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉-语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉-语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

强大的CLIP：用于强大的大规模视觉-语言模型的无监督对抗微调的视觉嵌入

我们提出了一种无监督的对抗微调方案来获得强大的CLIP视觉编码器，从而在依赖于CLIP的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Feb, 2024

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高13%和8.5%。

Mar, 2024

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高CLIP的对抗性鲁棒性。在15个数据集上进行的广泛实验表明，我们的方法显著提高了CLIP的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

保护视觉语言模型免受已插入的视觉提示注入器的威胁

通过SmoothVLM防御机制，本文针对视觉-语言模型中的补丁式对抗性提示注入进行研究，取得了成功的攻击率降低和上下文恢复率提高的平衡。

May, 2024

大型视觉语言模型的白盒多模态越狱

通过对大规模视觉语言模型的攻击，我们提出了一种综合性的策略，该策略同时攻击文本和图像模态，以利用视觉语言模型内的更广泛的脆弱性。我们的实验结果表明，我们的通用攻击策略可以有效地越狱MiniGPT-4，成功率达到96％，突显了视觉语言模型的脆弱性和对新的对齐策略的迫切需求。

May, 2024

通过双模式对抗启示破解视觉语言模型

利用 Bi-Modal Adversarial Prompt Attack 方法，通过优化文字和视觉提示共同实施监狱突破攻击，大幅提高攻击成功率。

Jun, 2024

大规模视觉语言模型攻击综述：资源、进展与未来趋势

本文综述了现有的大型视觉语言模型（LVLMs）攻击的各种形式，包括对模型输出进行操纵的对抗性攻击，利用模型漏洞进行未经授权行为的越狱攻击，通过修饰提示类型和模式进行的提示注入攻击以及影响模型训练的数据污染攻击，并讨论了未来的研究方向。我们希望通过本综述揭示LVLM的脆弱性，激发更多研究人员探索和减轻LVLM发展中的潜在安全问题。

Jul, 2024

走向对抗性强大的视觉语言模型：设计选择和提示格式技术的洞察

机视语言模型在研究和实际应用中取得了突破，但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外，我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动，我们在抵御强大的图像攻击（如Auto-PGD）方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导，尤其是在安全关键环境中的部署。

Jul, 2024