Nov, 2023
通往通用异常检测和理解的道路:大规模视觉语言模型(GPT-4V)领先
Towards Generic Anomaly Detection and Understanding: Large-scale
Visual-linguistic Model (GPT-4V) Takes the Lead
TL;DR使用GPT-4V模型进行多模态异态检测任务,包括图像、视频、点云和时间序列数据,在工业、医学、逻辑、视频和3D异态检测以及定位任务等多个应用领域中,通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中,GPT-4V模型证明在零/一次检测中能够高效地检测和解释全局和细粒度语义模式,从而能够准确区分正常和异常实例,展现出潜在的通用异态检测能力,为异态检测开辟了新的方法。