Mar, 2024

多模态异常检测与推理的自定义视觉语言基础模型

TL;DR本研究旨在开发一种适用于多个场景的通用异常检测模型,通过将视觉 - 语言基础模型定制为异常检测器和推理器,并引入多模态提示策略,将领域专家的知识作为条件来指导模型,在多模态输入表示中实现多模态异常检测和推理,从而提高异常检测性能。结果表明,该定制模型能够在不同的数据模态(如图像和点云)中检测异常,尤其适用于多物体场景和时间数据。