FADE:基于大型视觉-语言模型的少样本/零样本异常检测引擎
该论文提出了一种基于窗口的视觉-语言模型(WinCLIP),它可以实现零样本和少样本学习用于异常分类和分割任务,该模型在MVTec-AD (and VisA)数据集上超越了现有技术水平。
Mar, 2023
本文介绍了用于工业视觉检测的一个方案,该方案使用CLIP模型和多个存储器来实现无标准参考图像的零射和少射跟踪,从而实现对大量产品类型的快速自适应,并在VAND 2023挑战赛中获得了一等奖。
May, 2023
利用大型视觉语言模型(LVLMs)解决工业异常检测(IAD)问题的关键在于提出了一种基于LVLM的新型IAD方法AnomalyGPT,通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据,并利用图像解码器提供细粒度语义和设计,通过启示式嵌入fine-tune LVLM,消除了手动阈值调整的需求,直接评估异常的存在和位置,在MVTec-AD数据集上实现了86.1%的准确率,94.1%的图像级AUC和95.3%的像素级AUC。
Aug, 2023
提出了一种应用视觉专家进行工业异常检测的新型大型多模型(Myriad)模型,通过使用视觉专家的先验知识嵌入到大型语言模型中,实现了明确的异常检测和高质量的异常描述。
Oct, 2023
本文介绍了一种利用大型视觉语言模型CLIP的零样本异常检测方法CLIP-AD,采用语言引导策略,通过引入Staged Dual-Path模型来解决相似度计算、关键特征、文本与图像特征等问题,进一步引入线性层进行fine-tuning来增强性能。实验证明,该方法在分类/分割F1分数上优于现有方法1.0/1.2,并且经过扩展的模型SDP+可以获得进一步的改进,提高了分类/分割F1分数1.9/11.7。
Nov, 2023
本研究介绍了一种用于逻辑异常检测的新型组件分割模型,利用少量的标记样本和共享逻辑约束的未标记图像。通过采用直方图匹配损失和熵损失来确保未标记图像上的一致分割,提出了增强局部和全局样本有效性检测的方法,并通过三个记忆库(类别直方图、组件构成嵌入和块级别表示)捕捉视觉语义的关键方面。为了有效检测逻辑异常,提出了一种自适应缩放策略,以规范不同记忆库中的异常得分。在公共基准MVTec LOCO AD上进行的大量实验证明相较于竞争方法的89.6%,我们的方法在逻辑异常检测中获得了98.1%的AUROC。
Dec, 2023
我们提出了一个统一的框架CLIP-ADA用于通过适应预训练CLIP模型进行异常检测,在这个框架中,我们通过引入可学习的提示,并通过自监督学习将其与异常模式关联起来,从而获得多类别工业图像上的统一异常检测,并且通过引入异常区域细化策略来充分利用CLIP的表示能力来提高定位质量,我们的框架在MVTec-AD和VisA上取得了97.5/55.6和89.3/33.1的最新成果,以及在极小的训练数据下取得了令人鼓舞的性能,这更具挑战性。
Mar, 2024
通过引入双图增强CLIP方法,结合视觉-语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉-语言联合异常检测的潜力,并在各种数据集上展现了与当前最先进方法相媲美的性能。
May, 2024
本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争,并通过将DINOv2适应于一次性和少量次数的异常检测来证实这一点,重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争,而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法AnomalyDINO基于补丁相似性,能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练,因此无需额外的数据进行微调或元学习。尽管简单,但AnomalyDINO在一次性和少量次数的异常检测方面取得了最先进的成果(例如,将MVTec-AD上的一次性性能从93.1%的AUROC提升至96.6%)。降低的开销以及出色的少量次数性能使AnomalyDINO成为快速部署的有力候选,例如在工业环境中。
May, 2024
本研究解决了工业制造中异常检测面临的正常数据稀缺问题,传统方法通常需要大量正常数据进行训练。我们提出了一种基于稳定扩散(SD)模型的少量样本多类别异常检测框架AnomalySD,通过设计层次化文本描述和前景掩蔽机制来优化模型,在MVTec-AD和VisA数据集上的实验结果显示,该方法在异常分类和分割方面具有显著优势,分别达到了93.6%和94.8%的AUROC。
Aug, 2024