Nov, 2023

通往通用异常检测和理解的道路:大规模视觉语言模型(GPT-4V)领先

TL;DR使用 GPT-4V 模型进行多模态异态检测任务,包括图像、视频、点云和时间序列数据,在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中,通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中,GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式,从而能够准确区分正常和异常实例,展现出潜在的通用异态检测能力,为异态检测开辟了新的方法。