视频行为识别模型的大规模稳健性分析

CVPRJul, 2022

视频行为识别模型的大规模稳健性分析

Large-scale Robustness Analysis of Video Action Recognition Models

Madeline Chantry Schiappa, Naman Biyani, Prudvi Kamtam, Shruti Vyas, Hamid Palangi...

TL;DR本文对现有的视频动作识别模型进行大规模的复杂性分析，提供了不同的基准数据集，并研究了现有模型对 90 种不同扰动的鲁棒性，结果表明，基于 Transformer 的模型相对于基于 CNN 的模型更具鲁棒性。

Abstract

We have seen a great progress in video action recognition in recent years. There are several models based on convolutional neural network (CNN) and some recent →

video action recognition convolutional neural network transformer robustness dataset

发现论文，激发创造

对抗性增强训练使行动识别模型更能适应现实视频分布的变化

提出了两种新的评估方法来评估模型对训练和测试数据之间的分布差异的鲁棒性，通过采用梯度上升在数据增强参数上生成对分类模型具有挑战性的视频视图的增强视图，并通过 ' 课程 ' 调度视频增强的强度来解决鲁棒性问题。在现实世界的应用中，通过对比基准，在三种最先进的动作识别模型 - TSM、Video Swin Transformer 和 Uniformer 上实验表明了所提出的对抗性增强方法的优越性能，从而提高了视频动作识别性能。

Jan, 2024

基于 CNN 的时空表示深度分析用于行为识别

本文分析基于 2D 或 3D CNN 的视频动作识别方法，比较这些方法之间的区别和进展，并开发了一个统一框架进行公平比较，发现在动作识别方面取得了显著的提高，但准确性未有进展，探究了 2D-CNN 与 3D-CNN 模型在时空表示能力和可传递性方面的相似之处。

Oct, 2020

深度视频动作识别的全面研究

本文综述了 200 多篇关于视频动作识别的深度学习论文，介绍了 17 个影响模型设计的数据集和深度学习模型的发展历程，包括深度学习适应、双流网络、3D 卷积核和计算效率模型，并对几种方法在典型数据集上进行了基准测试，最后，讨论了视频动作识别面临的问题和未来的研究机会。

Dec, 2020

行动识别的未来何去何从？一种新模型及动力学数据集

本研究基于 Kinetics 数据集重新评估最先进的体系结构，并引入一种新的双流膨胀 3D ConvNet（I3D），该 ConvNet 可以在视频中学习无缝的时空特征提取器，利用成功的 ImageNet 架构设计及其参数，经过在 Kinetics 上的预训练后，I3D 模型在动作分类方面表现明显提高。

May, 2017

图像分类器是否具有时间上的泛化能力？

本文研究图像分类器对视频时序扰动的鲁棒性。我们构建了两个数据集，ImageNet-Vid-Robust 和 YTBB-Robust，包含 57,897 张图像，分为 3,139 组感知相似图像，并对其进行了重新注释以进行相似性分析。我们评估了各种经过 ImageNet 预训练的分类器，结果显示在两个数据集上的中位分类准确性分别下降了 16 和 10。此外，我们还评估了三个检测模型，并显示自然扰动会引起分类和定位误差，导致检测 mAP 中位数下降 14 个点。我们的分析表明，视频中自然发生的扰动对于在需要可靠和低延迟预测的环境中部署卷积神经网络是一个实际而重大的挑战。

Jun, 2019

动作识别的视频测试时间适应

该研究提出了一种针对空间 - 时间模型的方法，它能够在单个视频样本上进行特征分布对齐，保证了预测的一致性，并且在三个基准行动识别数据集上都表现出极高的性能。

Nov, 2022

视频动作识别的大规模弱监督预训练

使用大量网络视频进行预训练能够显著提高三个具有挑战性的公共行动识别数据集的性能，并对弱监督视频行动数据集的构建进行了深入研究。

May, 2019

高效提升预训练模型的鲁棒性

使用知识转移方法，将较小模型的鲁棒性迁移到大规模网络中，提高大规模模型的性能和鲁棒性。

Sep, 2023

动作识别中的 Transformer: 时序模型综述

本文主要介绍了基于 transformers 模型的深度学习方法，用于模拟时间上的变化进行动作识别的研究进展和应用挑战。

Dec, 2022

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021