一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

Mar, 2024

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models

Lin Li, Haoyan Guan, Jianing Qiu, Michael Spratling

TL;DR通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高13%和8.5%。

Abstract

Large pre-trained vision-language models (VLMs) like CLIP, despite having remarkable generalization ability, are highly vulnerable to adversarial examples. This work studies the →

发现论文，激发创造

通过提示进行模型调整使NLP模型具有对抗鲁棒性

该研究通过 Model-tuning Via Prompts (MVP) 修改输入而非模型以适应下游任务，在三个分类数据集上提高对抗性的稳健性，超过标准方法平均8％和对抗性训练的最新防御技术3.5％。研究结果发现多层感知器(MLP)易受对抗性扰动的影响归因于预训练和微调任务之间的不匹配和 MLP 参数的随机初始化。

Mar, 2023

构建强韧的图像-语言模型提示

本研究通过将多尺度图像特征集成到提示中，提出了一种对于分布偏移具有鲁棒性的提示学习方法，实验结果表明，这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。

Apr, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉-语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉-语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用adversarial prompts对Large Language Models进行度量，并分析了prompt鲁棒性及其传递性，为prompt组合提供了实用性建议。

Jun, 2023

视觉-语言模型的对抗提示调整

通过引入Adversarial Prompt Tuning (AdvPT)技术，本研究旨在提升视觉-语言模型中图像编码器的对抗性鲁棒性，改善对抗攻击的脆弱性，并且结合现有的基于图像处理的防御技术，进一步提高其防御能力。

Nov, 2023

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉-语言模型的稳健性，并且实验证明了在各种数据集上对预训练的CLIP模型的稳健性有显著改善。

Nov, 2023

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高CLIP的对抗性鲁棒性。在15个数据集上进行的广泛实验表明，我们的方法显著提高了CLIP的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

对敌对提示调整的鲁棒泛化问题的重新审视

通过多模态提示学习来提高图像和文本特征的对齐度，利用预训练的 CLIP 强大的泛化能力，引导模型在对抗性示例上增强鲁棒泛化能力，同时在干净示例上保持准确性。

May, 2024

走向对抗性强大的视觉语言模型：设计选择和提示格式技术的洞察

机视语言模型在研究和实际应用中取得了突破，但其对抗性攻击的鲁棒性至关重要。本研究系统地研究了模型设计选择对机视语言模型在图像攻击方面的抗打击能力的影响。此外，我们引入了新颖且经济的方法通过提示格式来增强鲁棒性。通过改写问题和建议可能的对抗性扰动，我们在抵御强大的图像攻击（如Auto-PGD）方面实现了显著的改进。我们的发现为开发更具鲁棒性的机视语言模型提供了重要指导，尤其是在安全关键环境中的部署。

Jul, 2024

提升视觉语言模型对抗鲁棒性的混合防御策略

本研究解决了视觉语言模型（VLM）在对抗攻击下鲁棒性不足的问题，提出了一种新颖的对抗训练框架，综合多种攻击策略和先进的机器学习技术。实验结果显示，该方法显著提升了VLM在真实数据集上的鲁棒性，CLIP模型在对抗扰动图像上的准确率从基准模型的4%提升至43.5%。

Oct, 2024