Aug, 2023

AnomalyGPT:利用大型视觉 - 语言模型检测工业异常

TL;DR利用大型视觉语言模型(LVLMs)解决工业异常检测(IAD)问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT,通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据,并利用图像解码器提供细粒度语义和设计,通过启示式嵌入 fine-tune LVLM,消除了手动阈值调整的需求,直接评估异常的存在和位置,在 MVTec-AD 数据集上实现了 86.1%的准确率,94.1%的图像级 AUC 和 95.3%的像素级 AUC。