CVPR2023视觉异常和新颖性检测挑战的获胜解决方案:以数据为中心的多模态提示异常检测
我们提出了一种新的框架——任意异常分割+(SAA +),通过混合提示正则化来改善现代基础模型的适应性,实现了零样本异常分割,包括VisA、MVTec-AD、MTD和KSDD2在内的多个异常分割基准测试表现优异。
May, 2023
本文介绍了用于工业视觉检测的一个方案,该方案使用CLIP模型和多个存储器来实现无标准参考图像的零射和少射跟踪,从而实现对大量产品类型的快速自适应,并在VAND 2023挑战赛中获得了一等奖。
May, 2023
本文介绍了我们参加Visual Anomaly and Novelty Detection (VAND) 2023 Challenge中的零样本检测方向的提交结果。我们在WINCLIP框架的基础上增强了系统的定位能力,同时整合了零样本分割模型。此外,我们还进行了前景实例分割,使模型集中在图像的相关部分,从而更好地识别小型或细微的偏差。我们的管道不需要外部数据或信息,可以直接应用于新的数据集。我们的团队(Variance Vigilance Vanguard)在VAND挑战赛的零样本检测中排名第三,样本/像素级别上在VisA数据集上实现了平均F1-max得分为81.5/24.2。
Jun, 2023
本研究旨在开发一种适用于多个场景的通用异常检测模型,通过将视觉-语言基础模型定制为异常检测器和推理器,并引入多模态提示策略,将领域专家的知识作为条件来指导模型,在多模态输入表示中实现多模态异常检测和推理,从而提高异常检测性能。结果表明,该定制模型能够在不同的数据模态(如图像和点云)中检测异常,尤其适用于多物体场景和时间数据。
Mar, 2024
提出了一种用于少样本异常检测的单类提示学习方法PromptAD,在语义拼接和明确异常边界的基础上,通过自动学习提示来改进工业异常检测任务。在MVTec和VisA数据集的11/12个few-shot环境中,PromptAD在图像级/像素级异常检测中取得第一名。
Apr, 2024
本文介绍了一种训练无关的方法ALFA,旨在解决零射击视觉异常检测的挑战,包括生成信息性的异常提示和精确的异常定位,通过利用大型语言模型的能力和全局到局部的图像-文本对齐。与最先进的零射击视觉异常检测方法相比,在MVTec AD和VisA数据集上,ALFA取得了显著的12.1%和8.9%的性能改进。
Apr, 2024
使用预训练的基础模型进行零样本异常分割是一种有前途的方法,它可以在不需要昂贵的领域特定训练或微调的情况下实现有效的算法。我们通过扰动测试数据使用三种语义变换(有界角度旋转、有界饱和度变化和色调变化)来研究WinCLIP [14]零样本异常分割算法的性能。通过在每个样本的最坏情况扰动中进行聚合,我们经验性地测量了一个较低的性能下界,并发现平均性能在ROC曲线下面积和区域重叠曲线下面积方面下降了最高达20%和40%。我们发现,无论模型架构或学习目标如何,这三种CLIP主干的性能都普遍降低,这表明需要进行仔细的性能评估。
May, 2024
本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争,并通过将DINOv2适应于一次性和少量次数的异常检测来证实这一点,重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争,而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法AnomalyDINO基于补丁相似性,能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练,因此无需额外的数据进行微调或元学习。尽管简单,但AnomalyDINO在一次性和少量次数的异常检测方面取得了最先进的成果(例如,将MVTec-AD上的一次性性能从93.1%的AUROC提升至96.6%)。降低的开销以及出色的少量次数性能使AnomalyDINO成为快速部署的有力候选,例如在工业环境中。
May, 2024
我们提出了一种无需人工干预的基于提示的异常检测框架,通过数据驱动方法优化学习提示,解决了训练阶段缺乏异常样本的问题,并通过合理调整梯度方向和局部注意力机制,实现了像素级异常分割的高准确度。
Jun, 2024
基于CLIP,我们提出了一个用于零样本异常分割任务的视觉上下文提示模型(VCP-CLIP),通过先将全局视觉信息嵌入文本提示,消除了特定产品提示的必要性,然后利用图像的细粒度特征调整文本嵌入,从而激活CLIP的异常语义感知能力,在10个真实工业异常分割数据集上取得了最先进的性能。
Jul, 2024