基于 CLIP 的零样本异常分割的语义鲁棒性研究

May, 2024

基于 CLIP 的零样本异常分割的语义鲁棒性研究

Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

Kevin Stangl, Marius Arvinte, Weilin Xu, Cory Cornelius

TL;DR使用预训练的基础模型进行零样本异常分割是一种有前途的方法，它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换（有界角度旋转、有界饱和度变化和色调变化）来研究 WinCLIP [14] 零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合，我们经验性地测量了一个较低的性能下界，并发现平均性能在 ROC 曲线下面积和区域重叠曲线下面积方面下降了最高达 20% 和 40%。我们发现，无论模型架构或学习目标如何，这三种 CLIP 主干的性能都普遍降低，这表明需要进行仔细的性能评估。

Abstract

zero-shot anomaly segmentation using pre-trained foundation models is a promising approach that enables effective algorithms without expensive, domain-specific training or fine-tuning. Ensuring that these methods

zero-shot anomaly segmentation pre-trained foundation models semantic transformations performance evaluation distribution shifts

发现论文，激发创造

WinCLIP：零 / 少样本异常分类和分割

该论文提出了一种基于窗口的视觉 - 语言模型 (WinCLIP)，它可以实现零样本和少样本学习用于异常分类和分割任务，该模型在 MVTec-AD (and VisA) 数据集上超越了现有技术水平。

Mar, 2023

使用预训练分割模型进行零样本异常检测

本文介绍了我们参加 Visual Anomaly and Novelty Detection (VAND) 2023 Challenge 中的零样本检测方向的提交结果。我们在 WINCLIP 框架的基础上增强了系统的定位能力，同时整合了零样本分割模型。此外，我们还进行了前景实例分割，使模型集中在图像的相关部分，从而更好地识别小型或细微的偏差。我们的管道不需要外部数据或信息，可以直接应用于新的数据集。我们的团队 (Variance Vigilance Vanguard) 在 VAND 挑战赛的零样本检测中排名第三，样本 / 像素级别上在 VisA 数据集上实现了平均 F1-max 得分为 81.5/24.2。

Jun, 2023

使用 CLIP 的随机词数据增强技术进行零样本异常检测

提出了一种利用视觉 - 语言模型 CLIP 作为零样本异常检测的数据源的新方法，通过在滑动窗口方式下对图像的每个部分应用提示引导分类，通过生成文本嵌入来训练前馈神经网络，从 CLIP 的嵌入中提取正常和异常特征，实现了无需训练图像的无类别异类检测，取得了零样本设置下的最新性能。

Aug, 2023

多模态基础模型的零样本鲁棒性基准测试：一项试点研究

基于大规模的鲁棒性基准测试，本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能，发现零样本多模态模型的鲁棒性明显不足，强调了对零样本多模态模型的鲁棒性进行改进的重要性。

Mar, 2024

AnomalyCLIP: 面向对象无关的零样本异常检测的提示学习

AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常，从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。

Oct, 2023

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

CVPR 2023 VAND 工作坊挑战赛 1 和 2 的零 / 少样本异常分类和分割方法：在零样本 AD 上获得第一名，在少样本 AD 上获得第四名

本文介绍了用于工业视觉检测的一个方案，该方案使用 CLIP 模型和多个存储器来实现无标准参考图像的零射和少射跟踪，从而实现对大量产品类型的快速自适应，并在 VAND 2023 挑战赛中获得了一等奖。

May, 2023

双图强化 CLIP 用于零样本异常检测

通过引入双图增强 CLIP 方法，结合视觉 - 语言评分系统，对图像异常检测进行了增强，包括利用图像进行相互参考以增强推理过程的视觉环境，以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力，并在各种数据集上展现了与当前最先进方法相媲美的性能。

May, 2024

AnoVL：面向统一零样本异常定位的视觉语言模型适应

使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测，通过学习自然语言监督下的视觉表示，构建文本提示与全局图像级别表示之间的对应关系，采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位，设计一个统一的领域感知对比状态提示模板，通过测试时的自适应机制进一步优化异常定位结果。

Aug, 2023