CVPRApr, 2024

利用大型语言模型实现免训练视频异常检测

TL;DR视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法,利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD,通过生成每个测试视频的文字描述,设计了一种启动机制,将 LLMs 转化为有效的视频异常检测器,并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD,结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。