AnoVL:面向统一零样本异常定位的视觉语言模型适应
我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测,在这个框架中,我们通过引入可学习的提示,并通过自监督学习将其与异常模式关联起来,从而获得多类别工业图像上的统一异常检测,并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量,我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果,以及在极小的训练数据下取得了令人鼓舞的性能,这更具挑战性。
Mar, 2024
提出了一种利用视觉 - 语言模型 CLIP 作为零样本异常检测的数据源的新方法,通过在滑动窗口方式下对图像的每个部分应用提示引导分类,通过生成文本嵌入来训练前馈神经网络,从 CLIP 的嵌入中提取正常和异常特征,实现了无需训练图像的无类别异类检测,取得了零样本设置下的最新性能。
Aug, 2023
通过引入双图增强 CLIP 方法,结合视觉 - 语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力,并在各种数据集上展现了与当前最先进方法相媲美的性能。
May, 2024
AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常,从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。
Oct, 2023
本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架,通过将多个残差适配器整合到预训练的视觉编码器中,通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应,使其适用于医学图像。实验结果表明,我们的方法在医学异常检测基准上显著超越了当前最先进的模型,在零样本和少样本情况下分别实现了 6.24% 和 7.33% 的平均 AUC 提升用于异常分类,以及 2.03% 和 2.37% 的平均 AUC 提升用于异常分割。
Mar, 2024
通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器,本文提出了 VadCLIP,一种弱监督视频异常检测范例,无需预训练和微调过程,通过双分支实现粗粒度和细粒度的视频异常检测,实验结果在两个常用基准上表现出色,超越了目前其他方法一大截。
Aug, 2023
提出一种测试时反馈方法来解决视觉 - 语言模型的输出与任务目标之间的不匹配问题,以避免模型过拟合于其不正确的输出分布。具体而言,采用 CLIP 作为奖励模型,在不同的任务中,包括图像分类、图像文本检索和图像标题生成等。通过强化学习,以最大化 CLIP 奖励为目标来进行单一测试样本的训练。经过广泛实验,证明了这种测试时反馈方法可以显著提高不同的视觉 - 语言模型的结果。
May, 2023
本文提出一种新的视觉语言模型 fine-tuning 方式 ——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于 context optimization
Oct, 2021
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
该论文提出了一种基于窗口的视觉 - 语言模型 (WinCLIP),它可以实现零样本和少样本学习用于异常分类和分割任务,该模型在 MVTec-AD (and VisA) 数据集上超越了现有技术水平。
Mar, 2023