VCP-CLIP：零样本异常分割的视觉上下文提示模型

Jul, 2024

VCP-CLIP：零样本异常分割的视觉上下文提示模型

VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation

Zhen Qu, Xian Tao, Mukesh Prasad, Fei Shen, Zhengtao Zhang...

TL;DR基于CLIP，我们提出了一个用于零样本异常分割任务的视觉上下文提示模型(VCP-CLIP)，通过先将全局视觉信息嵌入文本提示，消除了特定产品提示的必要性，然后利用图像的细粒度特征调整文本嵌入，从而激活CLIP的异常语义感知能力，在10个真实工业异常分割数据集上取得了最先进的性能。

Abstract

Recently, large-scale vision-language models such as CLIP have demonstrated immense potential in zero-shot anomaly segmentation (ZSAS) task, utilizing a unified model to directly detect anomalies on any

发现论文，激发创造

CVPR 2023 VAND 工作坊挑战赛1和2的零/少样本异常分类和分割方法：在零样本 AD 上获得第一名，在少样本 AD 上获得第四名

本文介绍了用于工业视觉检测的一个方案，该方案使用CLIP模型和多个存储器来实现无标准参考图像的零射和少射跟踪，从而实现对大量产品类型的快速自适应，并在VAND 2023挑战赛中获得了一等奖。

May, 2023

CVPR2023视觉异常和新颖性检测挑战的获胜解决方案：以数据为中心的多模态提示异常检测

该技术报告介绍了Segment Any Anomaly团队在CVPR2023视觉异常和新颖性检测（VAND）挑战赛中获胜的解决方案。该解决方案使用多模态提示进行无监督异常分割，并以基础模型为零样本下分割任务的先验知识的正则化，实现了在多个异常分割基准测试中具有最先进性能的状态。

Jun, 2023

使用预训练分割模型进行零样本异常检测

本文介绍了我们参加Visual Anomaly and Novelty Detection (VAND) 2023 Challenge中的零样本检测方向的提交结果。我们在WINCLIP框架的基础上增强了系统的定位能力，同时整合了零样本分割模型。此外，我们还进行了前景实例分割，使模型集中在图像的相关部分，从而更好地识别小型或细微的偏差。我们的管道不需要外部数据或信息，可以直接应用于新的数据集。我们的团队(Variance Vigilance Vanguard)在VAND挑战赛的零样本检测中排名第三，样本/像素级别上在VisA数据集上实现了平均F1-max得分为81.5/24.2。

Jun, 2023

使用CLIP的随机词数据增强技术进行零样本异常检测

提出了一种利用视觉-语言模型CLIP作为零样本异常检测的数据源的新方法，通过在滑动窗口方式下对图像的每个部分应用提示引导分类，通过生成文本嵌入来训练前馈神经网络，从CLIP的嵌入中提取正常和异常特征，实现了无需训练图像的无类别异类检测，取得了零样本设置下的最新性能。

Aug, 2023

AnomalyCLIP: 面向对象无关的零样本异常检测的提示学习

AnomalyCLIP通过学习无关物体的文本提示来捕捉图像中的通常和异常，从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。

Oct, 2023

CLIP-AD：语言导向的分层双路径零样本异常检测模型

本文介绍了一种利用大型视觉语言模型CLIP的零样本异常检测方法CLIP-AD，采用语言引导策略，通过引入Staged Dual-Path模型来解决相似度计算、关键特征、文本与图像特征等问题，进一步引入线性层进行fine-tuning来增强性能。实验证明，该方法在分类/分割F1分数上优于现有方法1.0/1.2，并且经过扩展的模型SDP+可以获得进一步的改进，提高了分类/分割F1分数1.9/11.7。

Nov, 2023

ClipSAM：CLIP与SAM的零样本异常分割合作

CLIP和SAM协作的ClipSAM框架可用于零样本异常分割任务，通过结合CLIP的语义理解和SAM的细分结果优化，获得最佳的分割性能。

Jan, 2024

LLM在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像-文本对齐。与最先进的零射击视觉异常检测方法相比，在MVTec AD和VisA数据集上，ALFA取得了显著的12.1%和8.9%的性能改进。

Apr, 2024

双图强化 CLIP 用于零样本异常检测

通过引入双图增强CLIP方法，结合视觉-语言评分系统，对图像异常检测进行了增强，包括利用图像进行相互参考以增强推理过程的视觉环境，以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉-语言联合异常检测的潜力，并在各种数据集上展现了与当前最先进方法相媲美的性能。

May, 2024

FADE：基于大型视觉-语言模型的少样本/零样本异常检测引擎

本研究解决了制造业中自动图像异常检测的挑战，尤其是在可用正常样本极少或没有的情况下。提出的FADE引擎利用优化后的CLIP模型，通过多尺度图像补丁嵌入和自动生成与工业异常检测相关的文本提示，显著提升了零样本和少样本情况下的异常检测效果。实验结果显示，FADE在MVTec-AD和VisA数据集上在异常分割中表现优于现有的最先进方法。

Aug, 2024