MVAD：用于视频流的多重视觉伪影检测器

May, 2024

MVAD：用于视频流的多重视觉伪影检测器

MVAD: A Multiple Visual Artifact Detector for Video Streaming

Chen Feng, Duolikun Danier, Fan Zhang, David Bull

TL;DR我们提出了一个多重视觉伪影检测器，能够使用单一框架检测多种伪影类型，并且不依赖视频质量评估模型。该模型通过一种新的感知伪影时空特征提取器和一个循环记忆视觉变换器模块进行处理，实现全面优化，并在两个视频伪影数据库上取得了一致且改进的预测结果。

Abstract

visual artifacts are often introduced into streamed video content, due to prevailing conditions during content production and/or delivery. Since these can degrade the quality of the user's experience, it is important to automatically and accurately detect them in order to enable effect

visual artifacts multiple artifact detector video streaming spatial features recurrent memory vision transformer

发现论文，激发创造

超越基准：视频中多样化异常的检测

视频异常检测（VAD）在现代监控系统中扮演着关键角色，旨在识别真实情境中的各种异常。然而，当前基准数据集主要强调简单的单帧异常，如新颖物体检测，这种狭窄的焦点限制了 VAD 模型的进展。在这项研究中，我们主张扩展 VAD 研究，涵盖超越传统基准范围的复杂异常。为此，我们引入了两个数据集：HMDB-AD 和 HMDB-Violence，以挑战具有多样化基于动作的异常的模型。这些数据集源于 HMDB51 动作识别数据集。我们进一步介绍了一种新方法 Multi-Frame Anomaly Detection（MFAD），它建立在 AI-VAD 框架之上。AI-VAD 利用单帧特征，如姿势估计和深度图像编码，以及双帧特征，如物体速度。然后，他们应用密度估计算法计算异常分数。为了解决复杂的多帧异常，我们添加了捕捉长期时态依赖性的深度视频编码特征和逻辑回归以增强最终分数计算。实验结果证实了我们的假设，并突显出现有模型对新异常类型的限制。在简单和复杂的异常检测场景中，MFAD 表现出色。

Oct, 2023

视频异常检测的多尺度空时交互网络

我们提出了一种多尺度时空交互网络（MSTI-Net），采用基于注意力机制的时空融合模块（ASTM）代替直接融合，并注入多个 ASTM 基础的连接，以促进所有可能的空间时间交互，最终将在多个尺度上学习的正常信息记录在内存中，在测试阶段增强异常和正常事件之间的区分。该方法在三个标准数据集上取得了良好的实验结果，UCSD Ped2 的 AUC 值达到了 96.8％，CUHK Avenue 的 AUC 值达到了 87.6％，ShanghaiTech 数据集的 AUC 值达到了 73.9％。

Jun, 2023

V-MAD：操作场景中基于视频的变形攻击检测

该研究尝试利用视频序列进行面部变形攻击检测，通过分析多个探测数据帧的优势提高了变形攻击检测系统的鲁棒性和性能。

Apr, 2024

基于记忆增强的在线视频异常检测

该研究介绍了一个名为 MOVAD 的智能汽车实时系统，它利用只能捕捉器固定摄像头拍摄的视频进行信息提取和到不同时间段的信息关联来及时响应异常情况。该系统包含视频分析技术和短期记忆和长期记忆两个部分，能够在 DoTA 数据集的测试中取得比目前同类技术高 2.81 的准确率。

Feb, 2023

多类无监督异常检测中基于普通 ViT 重建的探索

这篇论文研究了多类别无监督异常检测任务，采用了基于重构的方法与 Vision Transformer 相结合的简洁架构 ViTAD，提出了一种新颖的对称结构，并在多个指标上取得了最先进的结果。

Dec, 2023

基于扩散的多类异常检测框架 DiAD

基于扩散模型的异常检测中，提出了一种适用于多类异常检测的扩散异常检测（DiAD）框架，包括像素空间自动编码器、与稳定扩散去噪网络相连的潜空间语义引导（SG）网络，以及特征空间预训练特征提取器。通过实验证明了该方法的有效性，并超过了多类 MVTec-AD 数据集上的最先进方法，即对于多类 MVTec-AD 数据集的本地化和检测，达到了 96.8/52.6 和 97.2/99.0（AUROC/AP）。

Dec, 2023

基于图像转换的目标类感知视频异常检测

该研究提出了一种新的两流对象感知 VAD 方法，通过图像转换任务学习正常的外观和动态模式，检测偏离学习正常模式的异常情况，并在三个数据集上表现有竞争力。

May, 2022

10 年来视频异常检测：综述与展望

通过深度学习方法的视频异常检测（VAD）调查，本篇综述探索了传统监督训练范式之外的新兴弱监督、自监督和无监督方法，研究了 VAD 范式中的核心挑战，以及视觉语言模型（VLMs）作为强大的特征提取器在 VAD 中的作用，旨在增强复杂现实场景中异常检测的鲁棒性和效率，并填补现有知识差距，为研究人员提供有价值的见解，为 VAD 研究的未来贡献力量。

May, 2024

基于时空伪异常生成的视频异常检测：一种统一方法

通过使用预先训练的潜在扩散模型修复被屏蔽区域图像，并进一步通过混合来扰动光流以产生时间空间扭曲，提出了一种新的生成通用时空伪异常的方法。此外，通过学习重建质量、时间不规则性和语义不一致性等三种异常指标的简单统一框架，在开放集识别任务下检测现实世界的异常。在 Ped2、Avenue、ShanghaiTech 和 UBnormal 四个 VAD 基准数据集上进行了大量实验，证明我们的方法在 OCC 设置下的性能与其他现有的基于伪异常生成和重建的方法相当。同时我们的分析还检验了伪异常在这些数据集之间的可转移性和普适性，通过识别伪异常从而发现现实世界的异常提供了有价值的见解。

Nov, 2023

Holmes-VAD: 通过多模态 LLM 实现无偏和可解释的视频异常检测

提出 Holmes-VAD，一种新颖的框架，利用精确的时间监督和丰富的多模态指令，实现准确的异常定位和全面的解释。

Jun, 2024