利用大型语言模型实现免训练视频异常检测

CVPRApr, 2024

利用大型语言模型实现免训练视频异常检测

Harnessing Large Language Models for Training-free Video Anomaly Detection

Luca Zanella, Willi Menapace, Massimiliano Mancini, Yiming Wang, Elisa Ricci

TL;DR视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法，利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD，通过生成每个测试视频的文字描述，设计了一种启动机制，将 LLMs 转化为有效的视频异常检测器，并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD，结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。

Abstract

video anomaly detection (VAD) aims to temporally locate abnormal events in a video. Existing works mostly rely on training deep models to learn the distribution of normality with either video-level supervision, one-class supervision, or in an unsupervised setting. Training-based method

video anomaly detection language-based vad pre-trained large language models vision-language models modality-aligned vlms

发现论文，激发创造

基于大型语言模型的视频异常检测与解释

本文介绍了一种基于视频的大型语言模型在视频异常检测中的应用，该方法不需要阈值，并能解释检测到的异常事件。通过引入长期上下文网络模块和三阶段训练方法，提高了模型的性能并降低了数据需求和标注成本，该方法在 UCF-Crime 和 TAD 基准测试中实现了优异的性能。

Jan, 2024

10 年来视频异常检测：综述与展望

通过深度学习方法的视频异常检测（VAD）调查，本篇综述探索了传统监督训练范式之外的新兴弱监督、自监督和无监督方法，研究了 VAD 范式中的核心挑战，以及视觉语言模型（VLMs）作为强大的特征提取器在 VAD 中的作用，旨在增强复杂现实场景中异常检测的鲁棒性和效率，并填补现有知识差距，为研究人员提供有价值的见解，为 VAD 研究的未来贡献力量。

May, 2024

Holmes-VAD: 通过多模态 LLM 实现无偏和可解释的视频异常检测

提出 Holmes-VAD，一种新颖的框架，利用精确的时间监督和丰富的多模态指令，实现准确的异常定位和全面的解释。

Jun, 2024

开放词汇视频异常检测

这篇论文提出了一种能够利用预训练的大型模型来检测和分类已知和未知异常的开放词汇视频异常检测方法，并通过引入语义知识和合成异常来提高模型的性能。

Nov, 2023

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024

从事件提示中学习视频异常检测中的疑似异常

提出了一种用于弱监督视频异常检测的新颖框架，通过计算潜在异常事件的文本提示词典与异常视频生成的字幕之间的语义异常相似性，标识每个视频片段的疑似异常事件，并通过多提示学习过程约束所有视频的视觉 - 语义特征，提供了一种为自训练标记伪异常的新方法。通过全面实验和详细消融研究，在四个数据集（XD-Violence、UCF-Crime、TAD、ShanghaiTech）上表现出优于大多数最先进方法的性能（82.6%，87.7%，93.1% 和 97.4%），并在开放集和跨数据集情况下展示了有希望的性能。

Mar, 2024

从视频异常检测到视频异常检索的进展：新的基准和模型

视频异常检测已引起日益关注，然而目前主要集中于在线帧级别的异常检测任务，而不是利用详细描述来检索异常事件，因此我们提出了一种名为视频异常检索（VAR）的新任务，旨在通过跨模态方法检索相关的异常视频，并设计了一个名为 Anomaly-Led Alignment Network（ALAN）的模型来实现。

Jul, 2023

超越基准：视频中多样化异常的检测

视频异常检测（VAD）在现代监控系统中扮演着关键角色，旨在识别真实情境中的各种异常。然而，当前基准数据集主要强调简单的单帧异常，如新颖物体检测，这种狭窄的焦点限制了 VAD 模型的进展。在这项研究中，我们主张扩展 VAD 研究，涵盖超越传统基准范围的复杂异常。为此，我们引入了两个数据集：HMDB-AD 和 HMDB-Violence，以挑战具有多样化基于动作的异常的模型。这些数据集源于 HMDB51 动作识别数据集。我们进一步介绍了一种新方法 Multi-Frame Anomaly Detection（MFAD），它建立在 AI-VAD 框架之上。AI-VAD 利用单帧特征，如姿势估计和深度图像编码，以及双帧特征，如物体速度。然后，他们应用密度估计算法计算异常分数。为了解决复杂的多帧异常，我们添加了捕捉长期时态依赖性的深度视频编码特征和逻辑回归以增强最终分数计算。实验结果证实了我们的假设，并突显出现有模型对新异常类型的限制。在简单和复杂的异常检测场景中，MFAD 表现出色。

Oct, 2023

基于时空伪异常生成的视频异常检测：一种统一方法

通过使用预先训练的潜在扩散模型修复被屏蔽区域图像，并进一步通过混合来扰动光流以产生时间空间扭曲，提出了一种新的生成通用时空伪异常的方法。此外，通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架，在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验，证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性，通过识别伪异常从而发现现实世界的异常提供了有价值的见解。

Nov, 2023

大型语言模型可提供准确且可解释的时间序列异常检测

LLMAD 是一种新的时间序列异常检测方法，采用大语言模型（LLMs）提供准确而可解释的结果，通过在上下文中的检测来检索正面和负面的相似时间序列片段，并采用 Anomaly Detection Chain-of-Thought（AnoCoT）方法模仿专家逻辑进行决策过程，为用户决策提供解释。

May, 2024