Aug, 2023

AnoVL:面向统一零样本异常定位的视觉语言模型适应

TL;DR使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。