CVPR2023视觉异常和新颖性检测挑战的获胜解决方案：以数据为中心的多模态提示异常检测

Jun, 2023

CVPR2023视觉异常和新颖性检测挑战的获胜解决方案：以数据为中心的多模态提示异常检测

Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection

HTML

PDF

Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Liang Gao...

TL;DR该技术报告介绍了Segment Any Anomaly团队在CVPR2023视觉异常和新颖性检测（VAND）挑战赛中获胜的解决方案。该解决方案使用多模态提示进行无监督异常分割，并以基础模型为零样本下分割任务的先验知识的正则化，实现了在多个异常分割基准测试中具有最先进性能的状态。

Abstract

This technical report introduces the winning solution of the team \textit{Segment Any Anomaly} for the CVPR2023 Visual Anomaly and Novelty Detection (VAND) challenge. Going beyond uni-modal prompt, \textit{e.g.}, language prompt, we present a novel framework, \textit{i.e.}, Segment Any Anomaly + (SAA$+$), for →

发现论文，激发创造

混合提示正则化无需训练分割任何异常

我们提出了一种新的框架——任意异常分割+（SAA +），通过混合提示正则化来改善现代基础模型的适应性，实现了零样本异常分割，包括VisA、MVTec-AD、MTD和KSDD2在内的多个异常分割基准测试表现优异。

May, 2023

CVPR 2023 VAND 工作坊挑战赛1和2的零/少样本异常分类和分割方法：在零样本 AD 上获得第一名，在少样本 AD 上获得第四名

本文介绍了用于工业视觉检测的一个方案，该方案使用CLIP模型和多个存储器来实现无标准参考图像的零射和少射跟踪，从而实现对大量产品类型的快速自适应，并在VAND 2023挑战赛中获得了一等奖。

May, 2023

使用预训练分割模型进行零样本异常检测

本文介绍了我们参加Visual Anomaly and Novelty Detection (VAND) 2023 Challenge中的零样本检测方向的提交结果。我们在WINCLIP框架的基础上增强了系统的定位能力，同时整合了零样本分割模型。此外，我们还进行了前景实例分割，使模型集中在图像的相关部分，从而更好地识别小型或细微的偏差。我们的管道不需要外部数据或信息，可以直接应用于新的数据集。我们的团队(Variance Vigilance Vanguard)在VAND挑战赛的零样本检测中排名第三，样本/像素级别上在VisA数据集上实现了平均F1-max得分为81.5/24.2。

Jun, 2023

多模态异常检测与推理的自定义视觉语言基础模型

本研究旨在开发一种适用于多个场景的通用异常检测模型，通过将视觉-语言基础模型定制为异常检测器和推理器，并引入多模态提示策略，将领域专家的知识作为条件来指导模型，在多模态输入表示中实现多模态异常检测和推理，从而提高异常检测性能。结果表明，该定制模型能够在不同的数据模态（如图像和点云）中检测异常，尤其适用于多物体场景和时间数据。

Mar, 2024

PromptAD: 使用普通样本学习提示的少样本异常检测

提出了一种用于少样本异常检测的单类提示学习方法PromptAD，在语义拼接和明确异常边界的基础上，通过自动学习提示来改进工业异常检测任务。在MVTec和VisA数据集的11/12个few-shot环境中，PromptAD在图像级/像素级异常检测中取得第一名。

Apr, 2024

LLM在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像-文本对齐。与最先进的零射击视觉异常检测方法相比，在MVTec AD和VisA数据集上，ALFA取得了显著的12.1%和8.9%的性能改进。

Apr, 2024

基于CLIP的零样本异常分割的语义鲁棒性研究

使用预训练的基础模型进行零样本异常分割是一种有前途的方法，它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换（有界角度旋转、有界饱和度变化和色调变化）来研究WinCLIP [14]零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合，我们经验性地测量了一个较低的性能下界，并发现平均性能在ROC曲线下面积和区域重叠曲线下面积方面下降了最高达20%和40%。我们发现，无论模型架构或学习目标如何，这三种CLIP主干的性能都普遍降低，这表明需要进行仔细的性能评估。

May, 2024

AnomalyDINO：使用DINOv2提升基于补丁的少样本异常检测

本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争，并通过将DINOv2适应于一次性和少量次数的异常检测来证实这一点，重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争，而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法AnomalyDINO基于补丁相似性，能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练，因此无需额外的数据进行微调或元学习。尽管简单，但AnomalyDINO在一次性和少量次数的异常检测方面取得了最先进的成果（例如，将MVTec-AD上的一次性性能从93.1％的AUROC提升至96.6％）。降低的开销以及出色的少量次数性能使AnomalyDINO成为快速部署的有力候选，例如在工业环境中。

May, 2024

基于人工提取的无人机驱动的异常检测：元引导提示策略中的提示优化

我们提出了一种无需人工干预的基于提示的异常检测框架，通过数据驱动方法优化学习提示，解决了训练阶段缺乏异常样本的问题，并通过合理调整梯度方向和局部注意力机制，实现了像素级异常分割的高准确度。

Jun, 2024

VCP-CLIP：零样本异常分割的视觉上下文提示模型

基于CLIP，我们提出了一个用于零样本异常分割任务的视觉上下文提示模型(VCP-CLIP)，通过先将全局视觉信息嵌入文本提示，消除了特定产品提示的必要性，然后利用图像的细粒度特征调整文本嵌入，从而激活CLIP的异常语义感知能力，在10个真实工业异常分割数据集上取得了最先进的性能。

Jul, 2024