Holmes-VAD: 通过多模态 LLM 实现无偏和可解释的视频异常检测

Jun, 2024

Holmes-VAD: 通过多模态 LLM 实现无偏和可解释的视频异常检测

Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM

Huaxin Zhang, Xiaohao Xu, Xiang Wang, Jialong Zuo, Chuchu Han...

TL;DR提出 Holmes-VAD，一种新颖的框架，利用精确的时间监督和丰富的多模态指令，实现准确的异常定位和全面的解释。

Abstract

Towards open-ended video anomaly detection (VAD), existing methods often exhibit biased detection when faced with challenging or unseen events and lack interpretability. To address these drawbacks, we propose holmes-vad

open-ended video anomaly detection holmes-vad multimodal vad instruction-tuning benchmark anomaly localization comprehensive explanations

发现论文，激发创造

利用大型语言模型实现免训练视频异常检测

视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法，利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD，通过生成每个测试视频的文字描述，设计了一种启动机制，将 LLMs 转化为有效的视频异常检测器，并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD，结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。

Apr, 2024

基于大型语言模型的视频异常检测与解释

本文介绍了一种基于视频的大型语言模型在视频异常检测中的应用，该方法不需要阈值，并能解释检测到的异常事件。通过引入长期上下文网络模块和三阶段训练方法，提高了模型的性能并降低了数据需求和标注成本，该方法在 UCF-Crime 和 TAD 基准测试中实现了优异的性能。

Jan, 2024

10 年来视频异常检测：综述与展望

通过深度学习方法的视频异常检测（VAD）调查，本篇综述探索了传统监督训练范式之外的新兴弱监督、自监督和无监督方法，研究了 VAD 范式中的核心挑战，以及视觉语言模型（VLMs）作为强大的特征提取器在 VAD 中的作用，旨在增强复杂现实场景中异常检测的鲁棒性和效率，并填补现有知识差距，为研究人员提供有价值的见解，为 VAD 研究的未来贡献力量。

May, 2024

超越基准：视频中多样化异常的检测

视频异常检测（VAD）在现代监控系统中扮演着关键角色，旨在识别真实情境中的各种异常。然而，当前基准数据集主要强调简单的单帧异常，如新颖物体检测，这种狭窄的焦点限制了 VAD 模型的进展。在这项研究中，我们主张扩展 VAD 研究，涵盖超越传统基准范围的复杂异常。为此，我们引入了两个数据集：HMDB-AD 和 HMDB-Violence，以挑战具有多样化基于动作的异常的模型。这些数据集源于 HMDB51 动作识别数据集。我们进一步介绍了一种新方法 Multi-Frame Anomaly Detection（MFAD），它建立在 AI-VAD 框架之上。AI-VAD 利用单帧特征，如姿势估计和深度图像编码，以及双帧特征，如物体速度。然后，他们应用密度估计算法计算异常分数。为了解决复杂的多帧异常，我们添加了捕捉长期时态依赖性的深度视频编码特征和逻辑回归以增强最终分数计算。实验结果证实了我们的假设，并突显出现有模型对新异常类型的限制。在简单和复杂的异常检测场景中，MFAD 表现出色。

Oct, 2023

Hawk: 学习理解开放式世界视频异常

利用交互式大型视觉语言模型（VLM）解释视频异常以及改进动作模态以提高异常识别能力的 Hawk 框架在视频描述生成和问题回答方面超过了现有基准，实现了最先进的性能。

May, 2024

开放词汇视频异常检测

这篇论文提出了一种能够利用预训练的大型模型来检测和分类已知和未知异常的开放词汇视频异常检测方法，并通过引入语义知识和合成异常来提高模型的性能。

Nov, 2023

从事件提示中学习视频异常检测中的疑似异常

提出了一种用于弱监督视频异常检测的新颖框架，通过计算潜在异常事件的文本提示词典与异常视频生成的字幕之间的语义异常相似性，标识每个视频片段的疑似异常事件，并通过多提示学习过程约束所有视频的视觉 - 语义特征，提供了一种为自训练标记伪异常的新方法。通过全面实验和详细消融研究，在四个数据集（XD-Violence、UCF-Crime、TAD、ShanghaiTech）上表现出优于大多数最先进方法的性能（82.6%，87.7%，93.1% 和 97.4%），并在开放集和跨数据集情况下展示了有希望的性能。

Mar, 2024

从视频异常检测到视频异常检索的进展：新的基准和模型

视频异常检测已引起日益关注，然而目前主要集中于在线帧级别的异常检测任务，而不是利用详细描述来检索异常事件，因此我们提出了一种名为视频异常检索（VAR）的新任务，旨在通过跨模态方法检索相关的异常视频，并设计了一个名为 Anomaly-Led Alignment Network（ALAN）的模型来实现。

Jul, 2023

基于时空伪异常生成的视频异常检测：一种统一方法

通过使用预先训练的潜在扩散模型修复被屏蔽区域图像，并进一步通过混合来扰动光流以产生时间空间扭曲，提出了一种新的生成通用时空伪异常的方法。此外，通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架，在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验，证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性，通过识别伪异常从而发现现实世界的异常提供了有价值的见解。

Nov, 2023

评估野外视频异常检测的有效性：面向实际部署的在线学习和推断

通过在线学习框架，本研究评估了当前视频异常检测算法在现实环境中的适应性，特别是基于姿势分析的算法，在效率和隐私方面具备优势。研究发现，在最具挑战性的情况下，我们的在线学习方法使模型在特定目标领域中保持了 89.39% 的原始有效性。

Apr, 2024