通过适应预训练视觉语言模型进行异常检测

Mar, 2024

通过适应预训练视觉语言模型进行异常检测

Anomaly Detection by Adapting a pre-trained Vision Language Model

Yuxuan Cai, Xinwei He, Dingkang Liang, Ao Tong, Xiang Bai

TL;DR我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Abstract

Recently, large vision and language models have shown their success when adapting them to many downstream tasks. In this paper, we present a unified framework named clip-ada for anomaly detection by Adapting a pr

clip-ada anomaly detection unified framework abnormal patterns anomaly localization

发现论文，激发创造

AnoVL：面向统一零样本异常定位的视觉语言模型适应

使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测，通过学习自然语言监督下的视觉表示，构建文本提示与全局图像级别表示之间的对应关系，采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位，设计一个统一的领域感知对比状态提示模板，通过测试时的自适应机制进一步优化异常定位结果。

Aug, 2023

VadCLIP: 适应弱监督视频异常检测的视觉语言模型

通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器，本文提出了 VadCLIP，一种弱监督视频异常检测范例，无需预训练和微调过程，通过双分支实现粗粒度和细粒度的视频异常检测，实验结果在两个常用基准上表现出色，超越了目前其他方法一大截。

Aug, 2023

面向医学图像的通用异常检测的视觉语言模型的适应

本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架，通过将多个残差适配器整合到预训练的视觉编码器中，通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应，使其适用于医学图像。实验结果表明，我们的方法在医学异常检测基准上显著超越了当前最先进的模型，在零样本和少样本情况下分别实现了 6.24% 和 7.33% 的平均 AUC 提升用于异常分类，以及 2.03% 和 2.37% 的平均 AUC 提升用于异常分割。

Mar, 2024

AnomalyCLIP: 面向对象无关的零样本异常检测的提示学习

AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常，从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。

Oct, 2023

CLIP-Adapter: 特征适配器提升视觉语言模型

本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter，通过在原训练模型上加入新特征层并进行残差式混合来实现，在各种视觉分类任务中表现优异，优于 context optimization

Oct, 2021

使用 CLIP 的随机词数据增强技术进行零样本异常检测

提出了一种利用视觉 - 语言模型 CLIP 作为零样本异常检测的数据源的新方法，通过在滑动窗口方式下对图像的每个部分应用提示引导分类，通过生成文本嵌入来训练前馈神经网络，从 CLIP 的嵌入中提取正常和异常特征，实现了无需训练图像的无类别异类检测，取得了零样本设置下的最新性能。

Aug, 2023

双图强化 CLIP 用于零样本异常检测

通过引入双图增强 CLIP 方法，结合视觉 - 语言评分系统，对图像异常检测进行了增强，包括利用图像进行相互参考以增强推理过程的视觉环境，以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力，并在各种数据集上展现了与当前最先进方法相媲美的性能。

May, 2024

CLIPping the Deception: 转变视觉语言模型以适应通用深度伪造检测

该研究探索了预训练视觉 - 语言模型与先进适应方法相结合在通用深假检测中的有效性，结果表明，保留视觉和文本部分对于检测效果至关重要。通过提出的简单轻量级的 Prompt Tuning 适应策略，使用较少的训练数据（20 万张图像，相较于 72 万张），在 mAP 和准确率上超过先前的方法 5.01% 和 6.61%。在 21 个不同数据集的严格测试中，该模型展现了在包括基于 GANs、基于 Diffusion 和商业工具生成的图像中的实际适用性。

Feb, 2024

CLIP-AD：语言导向的分层双路径零样本异常检测模型

本文介绍了一种利用大型视觉语言模型 CLIP 的零样本异常检测方法 CLIP-AD，采用语言引导策略，通过引入 Staged Dual-Path 模型来解决相似度计算、关键特征、文本与图像特征等问题，进一步引入线性层进行 fine-tuning 来增强性能。实验证明，该方法在分类 / 分割 F1 分数上优于现有方法 1.0/1.2，并且经过扩展的模型 SDP + 可以获得进一步的改进，提高了分类 / 分割 F1 分数 1.9/11.7。

Nov, 2023

探索 CLIP 潜空间用于视频异常识别

我们介绍了一种名为 AnomalyCLIP 的新方法，它首次将大语言和视觉（LLV）模型（如 CLIP）与多实例学习相结合，用于联合视频异常检测和分类。我们通过操纵潜在的 CLIP 特征空间来识别正常事件子空间，并有效地学习文本驱动的异常事件方向。我们还引入了一种计算效率高的 Transformer 架构来建模帧之间的短期和长期时序依赖关系，最终产生最终的异常分数和类别预测概率。我们通过对比三个主要的异常检测基准测试，即 ShanghaiTech，UCF-Crime 和 XD-Violence，实证地表明 AnomalyCLIP 在识别视频异常方面优于基准线方法。

Oct, 2023