提升人工智能生成图像检测的水平与 CLIP

Nov, 2023

提升人工智能生成图像检测的水平与 CLIP

Raising the Bar of AI-generated Image Detection with CLIP

Davide Cozzolino, Giovanni Poggi, Riccardo Corvi, Matthias Nießner, Luisa Verdoliva

TL;DR本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Abstract

Aim of this work is to explore the potential of pre-trained vision-language models (VLMs) for universal detection of ai-generated images. We develop a lightweight detection strategy based on clip features and stu

pre-trained vision-language models ai-generated images clip features generalization ability robustness

发现论文，激发创造

混合低秩专家用于可传输的人工智能生成图像检测

通过开发通用的人工智能生成图像检测器，该研究旨在识别不同来源的图像。该方法通过深入挖掘 CLIP-ViT 的潜力并保留知识，扩展可传递检测的能力，提出了一种新颖的参数高效的微调方法，使用低秩专家的混合模式在 MoE 结构中融合共享和分离的 LoRAs。通过在公共基准测试中进行大量实验，我们的方法在跨生成器泛化和对扰动的鲁棒性方面实现了超越最先进方法的优越性。值得注意的是，我们表现最佳的 ViT-L/14 变体只需训练其 0.08% 的参数即可将最领先的基线提高 + 3.64% 的 mAP 和 + 12.72% 的平均准确率，超越了仅使用训练数据的 0.28% 的基线。

Apr, 2024

TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

通过使用大规模视觉和语言模型（VLM）作为模型骨干，以及基于 Transformer 的校准器，我们提出了 TaskCLIP，一个两阶段的设计用于任务导向的目标检测，实验结果表明我们的方法优于当前最先进的 TOIST 模型，并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。

Mar, 2024

通过适应预训练视觉语言模型进行异常检测

我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Mar, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Feb, 2024

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏

本文研究了零样本的人 - 物互动检测任务，采用了 CLIP 作为知识蒸馏的大规模预训练视觉 - 语言模型，在全局图像、局部区域和个体实例级别上学习人 - 物互动表示，并通过 CLIP 生成互动得分作为监督信号进行模型训练，在公共 HICO-DET 基准测试中取得了强大的性能。

Sep, 2023

Mammo-CLIP: 一种增强乳腺摄影数据效率与鲁棒性的视觉语言基础模型

本文提出了针对乳腺癌检测中计算机辅助诊断（CAD）的大型和多样化训练数据的不足问题，通过使用大规模图像文本数据集进行预训练，通过视觉 - 语言模型（如 CLIP）部分解决了计算机视觉中鲁棒性和数据效率的问题。我们首次提出了 Mammo-CLIP，使用大量乳腺癌筛查乳房矩阵报告对其进行了预训练，解决了数据集多样性和规模的挑战。我们在两个公共数据集上的实验证明了该方法在乳腺癌检测中对关键的分类和定位属性表现出了类似 CLIP 在计算机视觉中的数据效率和鲁棒性。此外，我们还提出了 Mammo-FActOR，一种新颖的特征归因方法，可以提供在乳腺病理学报告中基于句子级粒度的空间解释。代码可在公开网址 https://github.com/batmanlab/Mammo-CLIP 上获得。

May, 2024

VadCLIP: 适应弱监督视频异常检测的视觉语言模型

通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器，本文提出了 VadCLIP，一种弱监督视频异常检测范例，无需预训练和微调过程，通过双分支实现粗粒度和细粒度的视频异常检测，实验结果在两个常用基准上表现出色，超越了目前其他方法一大截。

Aug, 2023