CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

Feb, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection

Sohail Ahmed Khan, Duc-Tien Dang-Nguyen

TL;DR该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Abstract

The recent advancements in generative adversarial networks (GANs) and the emergence of diffusion models have significantly streamlined the production of highly realistic and widely accessible synthetic content. A

generative adversarial networks diffusion models deepfake detection vision-language models prompt tuning

发现论文，激发创造

AntifakePrompt: 基于提示调整的视觉语言模型用于检测假图像

利用视觉 - 语言模型和提示调整技术，将深度伪造检测问题转化为视觉问题回答，实验表明通过预训练的视觉 - 语言模型和提示调整可以显著提高深度伪造检测的准确性。

Oct, 2023

强大的 CLIP：用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入

我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器，从而在依赖于 CLIP 的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Feb, 2024

通过适应预训练视觉语言模型进行异常检测

我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Mar, 2024

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

提高视觉语言模型的适应性和泛化能力的有效传递学习

利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要；我们提出了一种自适应集成方法，根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识，该方法在广泛的基准测试中始终优于所有基准线，尤其是在未知任务上表现出了其有效性。

Nov, 2023

再审视视觉语言模型的对抗鲁棒性：一种多模态的观点

通过研究视觉语言模型（VLMs）的自适应对抗性鲁棒性，我们引入了一种多模态对抗性攻击策略，并在图像和文本编码器上采用多模态对比对抗性训练损失，以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明，我们的方法显著提高了 CLIP 的对抗性鲁棒性，甚至在图像攻击的背景下，经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。

Apr, 2024

提升人工智能生成图像检测的水平与 CLIP

本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Nov, 2023

评估大规模视觉语言模型的对抗鲁棒性

本研究评估了开源大型视觉 - 语言模型的鲁棒性，发现黑盒查询可以进一步提高定向逃避的效果。研究结果为大型视觉 - 语言模型的敌对脆弱性提供了量化的理解，并呼吁在实际部署之前对它们的潜在安全漏洞进行更全面的研究。

May, 2023

通过少样本 CLIP 辅助扩散生成来识别和减轻模型失效

这项研究通过结合大型语言模型（ChatGPT）和视觉语言深度模型（CLIP），提出了一种利用生成文本描述模型失效模式的端到端框架，以提高对稀有背景等失败情景的性能。通过生成合成数据，以此学习模型的不足，并在不同数据类别的罕见背景上增强性能，该方法在多个模型和数据集上实现了显著的准确度提升（约 21%）。

Dec, 2023

VadCLIP: 适应弱监督视频异常检测的视觉语言模型

通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器，本文提出了 VadCLIP，一种弱监督视频异常检测范例，无需预训练和微调过程，通过双分支实现粗粒度和细粒度的视频异常检测，实验结果在两个常用基准上表现出色，超越了目前其他方法一大截。

Aug, 2023