强大的CLIP：用于强大的大规模视觉-语言模型的无监督对抗微调的视觉嵌入

Feb, 2024

强大的CLIP：用于强大的大规模视觉-语言模型的无监督对抗微调的视觉嵌入

Robust CLIP: Unsupervised Adversarial Fine-Tuning of Vision Embeddings for Robust Large Vision-Language Models

Christian Schlarmann, Naman Deep Singh, Francesco Croce, Matthias Hein

TL;DR我们提出了一种无监督的对抗微调方案来获得强大的CLIP视觉编码器，从而在依赖于CLIP的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Abstract

multi-modal foundation models like OpenFlamingo, LLaVA, and GPT-4 are increasingly used for various real-world tasks. Prior work has shown that these models are highly vulnerable to adversarial attacks on the vis

发现论文，激发创造

探究视觉与语言预训练模型的鲁棒性

通过对现有的预训练模型进行全面评估和改进，本研究提出了一种名为 Mango 的方法，在嵌入空间中学习多模态对抗性噪声生成器，使得预训练的视觉-语言模型的鲁棒性得到了大幅度提升，并在七项鲁棒性测试中创造了新的最高水平。

Dec, 2020

对抗攻击下的稳健对比语言-图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像-字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉-语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉-语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

视觉-语言模型的对抗提示调整

通过引入Adversarial Prompt Tuning (AdvPT)技术，本研究旨在提升视觉-语言模型中图像编码器的对抗性鲁棒性，改善对抗攻击的脆弱性，并且结合现有的基于图像处理的防御技术，进一步提高其防御能力。

Nov, 2023

预训练模型引导的零样本对抗鲁棒性微调

本研究提出了预训练模型引导的对抗微调（PMG-AFT）方法，通过精心设计辅助分支，利用原始预训练模型的监督来增强模型的零样本对抗鲁棒性。对15个零样本数据集进行的广泛实验证明，PMG-AFT在顶部1的抗干扰准确性方面显著优于最先进的方法，平均提高了4.99%。此外，我们的方法还能持续改善干净准确性，平均提高了8.72%。

Jan, 2024

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高13%和8.5%。

Mar, 2024

AVIBench: 评估大型视觉语言模型在对抗性视觉指导下的稳健性

评估大规模视觉-语言模型（LVLMs）对敌对性视觉指令的稳健性和内容偏见的重要性，引入了AVIBench框架，通过多模态任务和内容偏见生成各类敌对性视觉指令进行全面评估。发现现有LVLMs存在漏洞和内在偏见，强调提高LVLMs的稳健性、安全性和公平性的重要性。

Mar, 2024

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高CLIP的对抗性鲁棒性。在15个数据集上进行的广泛实验表明，我们的方法显著提高了CLIP的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

走向对抗性强大的视觉语言模型：设计选择和提示格式技术的洞察

机视语言模型在研究和实际应用中取得了突破，但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外，我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动，我们在抵御强大的图像攻击（如Auto-PGD）方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导，尤其是在安全关键环境中的部署。

Jul, 2024

通过强健编码器增强视觉-语言模型的安全性以抵御越狱和对抗攻击

本研究解决了大型视觉-语言模型（LVLMs）在面临越狱和对抗攻击时的脆弱性问题。提出的Sim-CLIP+防御机制通过利用Siamese架构对CLIP视觉编码器进行对抗微调，显著提升了模型的抗攻击能力。实验结果表明，Sim-CLIP+在保持高准确率的同时，有效抵御了多种攻击方式，具有良好的实际应用价值。

Sep, 2024