防御前缀对抗 CLIP 上的排版攻击

Apr, 2023

Defense-Prefix for Preventing Typographic Attacks on CLIP

Hiroki Azuma, Yusuke Matsui

TL;DR本研究提出了一种名为 Defense-Prefix（DP）的方法来防范视觉语言预训练模型中的排版攻击，该方法可以在不改变模型参数的情况下应用于目标检测等下游任务，并显著提高了分类任务的准确性。

Abstract

vision-language pre-training models (VLPs) have exhibited revolutionary improvements in various vision-language tasks. In VLP, some adversarial attacks fool a model into false or absurd classifications. Previous

vision-language pre-training models adversarial attacks typographic attacks defense-prefix object detection

发现论文，激发创造

对抗攻击下的稳健对比语言 - 图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023

大型多模态模型中的排版攻击可以通过更多信息丰富的提示得到缓解

大型多模型（LMMs）依赖于预训练的视觉语言模型（VLMs）和大型语言模型（LLMs）在视觉和语言的联合空间中执行各种多模态任务的出色新颖能力。然而，印刷攻击也被确认为对 LMMs 的安全漏洞，而我们首次全面调查了 LMMs 对印刷字体的易受干扰性，并证明了 LMMs 可以利用更丰富的提示信息从嵌入中区分视觉内容和印刷字体。最后，我们提出了一种提示信息增强方法，可以有效减轻印刷字体的影响。

Feb, 2024

面向视觉语言预训练模型的对抗攻击

本研究针对视觉 - 语言预训练模型（VLP）的鲁棒性问题进行研究，提出了一种名为协作多模态对抗攻击（Co-Attack）的新型攻击方法，以获得对不同视觉 - 语言下游任务和 VLP 模型的更好攻击性能。该研究结果提供了关于 VLP 模型的对抗鲁棒性的新认识，为其在更多实际场景中的安全可靠部署做出了贡献。

Jun, 2022

视觉伪造技术 LLMs 自我生成的字体攻击

大视觉 - 语言模型（LVLMs）对印刷攻击的脆弱性进行了研究，并引入了一种新的基准测试和一种更有效的自动生成印刷攻击方法。

Feb, 2024

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

安全第一：针对有针对性数据污染和后门攻击的预训练 CLIP

SAFECLIP 通过应用单模态对比学习预训练 CLIP 模型，通过逐渐增加安全子集的大小，有效地防止了有针对性的数据污染和后门攻击，而不损害 CLIP 在各种数据集上的性能。

Oct, 2023

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高 13% 和 8.5%。

Mar, 2024

ClipCap: 图像字幕的 CLIP 前缀

本文使用 CLIP 编码作为前缀，利用简单的映射网络，然后微调语言模型以生成图像标题，无需额外的注释或预训练，有效地为大规模和多样化的数据集生成有意义的标题。同时，我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果，同时更简单、更快、更轻。

Nov, 2021

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023