开放词汇视频异常检测
通过深度学习方法的视频异常检测(VAD)调查,本篇综述探索了传统监督训练范式之外的新兴弱监督、自监督和无监督方法,研究了 VAD 范式中的核心挑战,以及视觉语言模型(VLMs)作为强大的特征提取器在 VAD 中的作用,旨在增强复杂现实场景中异常检测的鲁棒性和效率,并填补现有知识差距,为研究人员提供有价值的见解,为 VAD 研究的未来贡献力量。
May, 2024
通过使用预先训练的潜在扩散模型修复被屏蔽区域图像,并进一步通过混合来扰动光流以产生时间空间扭曲,提出了一种新的生成通用时空伪异常的方法。此外,通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架,在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验,证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性,通过识别伪异常从而发现现实世界的异常提供了有价值的见解。
Nov, 2023
视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法,利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD,通过生成每个测试视频的文字描述,设计了一种启动机制,将 LLMs 转化为有效的视频异常检测器,并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD,结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。
Apr, 2024
该研究提出了一种新的两流对象感知 VAD 方法,通过图像转换任务学习正常的外观和动态模式,检测偏离学习正常模式的异常情况,并在三个数据集上表现有竞争力。
May, 2022
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
提出了一种用于弱监督视频异常检测的新颖框架,通过计算潜在异常事件的文本提示词典与异常视频生成的字幕之间的语义异常相似性,标识每个视频片段的疑似异常事件,并通过多提示学习过程约束所有视频的视觉 - 语义特征,提供了一种为自训练标记伪异常的新方法。通过全面实验和详细消融研究,在四个数据集(XD-Violence、UCF-Crime、TAD、ShanghaiTech)上表现出优于大多数最先进方法的性能(82.6%,87.7%,93.1% 和 97.4%),并在开放集和跨数据集情况下展示了有希望的性能。
Mar, 2024
利用交互式大型视觉语言模型(VLM)解释视频异常以及改进动作模态以提高异常识别能力的 Hawk 框架在视频描述生成和问题回答方面超过了现有基准,实现了最先进的性能。
May, 2024
本文介绍了一种基于视频的大型语言模型在视频异常检测中的应用,该方法不需要阈值,并能解释检测到的异常事件。通过引入长期上下文网络模块和三阶段训练方法,提高了模型的性能并降低了数据需求和标注成本,该方法在 UCF-Crime 和 TAD 基准测试中实现了优异的性能。
Jan, 2024
在智能视频监控中,视频异常检测 (VAD) 涉及检测视频中的异常事件,这是一个复杂而重要的任务。本文提出了一种基于先验知识引导的网络 (PKG-Net) 来解决 VAD 任务。通过在教师 - 学生架构中将自编码器网络与两个指定的代理任务相结合,即未来帧预测和教师网络模仿,提供了更好的未知样本泛化能力。此外,还提出了对适当特征块进行知识蒸馏,以增加模型的多尺度检测能力。实验结果在三个公开基准上验证了我们方法的有效性和准确性,超过了最近的最先进方法。
Sep, 2023
提出 Holmes-VAD,一种新颖的框架,利用精确的时间监督和丰富的多模态指令,实现准确的异常定位和全面的解释。
Jun, 2024