May, 2024

Hawk: 学习理解开放式世界视频异常

TL;DR利用交互式大型视觉语言模型(VLM)解释视频异常以及改进动作模态以提高异常识别能力的 Hawk 框架在视频描述生成和问题回答方面超过了现有基准,实现了最先进的性能。