基于深度学习的时空动作检测综述

Aug, 2023

基于深度学习的时空动作检测综述

A Survey on Deep Learning-based Spatio-temporal Action Detection

Peng Wang, Fanwei Zeng, Yuntao Qian

TL;DR本文综述了基于深度学习的时空动作检测（STAD）的最新方法及其性能评估，讨论了相关研究的潜在方向。

Abstract

spatio-temporal action detection (STAD) aims to classify the actions present in a video and localize them in space and time. It has become a particularly active area of research in computer vision because of its explosively emerging real-world applications, such as autonomous driving,

spatio-temporal action detection deep learning-based methods video classification localization benchmark datasets

发现论文，激发创造

开放词汇空间时间动作检测

通过对现有 STAD 数据集建立两个基准，并提出基于预训练视频 - 语言模型的简单而有效的方法，我们在新的类别上取得了令人期待的性能，通过训练一个在有限的基本类别上的模型来具备好的泛化性能。

May, 2024

ZSTAD：零样本时序活动检测

提出了一种称为零样本时间活动检测（ZSTAD）的新任务设置，其中可以检测到没有在训练中见过的活动。使用 R-C3D 进行设计并采用考虑到活动标签和超类嵌入的创新损失函数对网络进行优化，实验结果对于检测到未知活动方面表现出了良好的性能。

Mar, 2020

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

视频中多个时空动作管的深度学习检测

提出了一个新的方法，利用三个阶段的框架实现了视频中多个并发动作的时空本地化（检测）和分类，通过动态规划构建了最有可能与单个动作实例相关联的检测框序列，其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果，改进最大检出率（mAP）比之前提高了约 20％和 11％。

Aug, 2016

单次拍摄时间动作检测中解耦定位和分类

本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD)，通过在并行中设计两个单独的分支来实现定位和分类的解耦，从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验，证明了其优越性能。

Apr, 2019

一项关于端到端时间动作检测的实证研究

本文介绍了一种基于端到端学习的方法进行时间动作检测，相对于只有检测头优化的方法，端到端学习可以带来多达 11% 的性能改进，并针对影响 TAD 性能和速度的多种设计选择进行了深入研究，并提出了更高效的检测器。

Apr, 2022

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

发现时空动作管道

本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测，并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框，并在三个公共数据集上获得了优越的检测结果：UCFSports、J-HMDB 和 UCF101。

Nov, 2018