预测动作管

ECCVAug, 2018

Predicting Action Tubes

Gurkirt Singh, Suman Saha, Fabio Cuzzolin

TL;DR该研究提出了一个名为 TPnet 的管道预测网络，能够实时在线地预测整个动作管道，并且在 J-HMDB-21 数据集上取得了先进的检测性能。

Abstract

In this work, we present a method to predict an entire `action tube' (a set of temporally linked bounding boxes) in a trimmed video just by observing a smaller subset of it. Predicting where an action is going to

action tube bounding boxes computer vision tpnet j-hmdb-21

发现论文，激发创造

发现时空动作管道

本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测，并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框，并在三个公共数据集上获得了优越的检测结果：UCFSports、J-HMDB 和 UCF101。

Nov, 2018

视频中多个时空动作管的深度学习检测

提出了一个新的方法，利用三个阶段的框架实现了视频中多个并发动作的时空本地化（检测）和分类，通过动态规划构建了最有可能与单个动作实例相关联的检测框序列，其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果，改进最大检出率（mAP）比之前提高了约 20％和 11％。

Aug, 2016

寻找动作管道

本文提出了一种动作检测方法，使用从 2D 图像中物体检测领域的最新进展，利用形状和运动线索建立动作模型，并通过运动显著性选择图像区域提取时空特征建立强分类器，得出了时间一致的动作检测结果。

Nov, 2014

AMTnet：端到端可训练深度架构的动作 - 微管回归

本论文提出了一种新的深度神经网络框架，称之为 3D-RPN 网络，能够在纯粹利用外观的情况下有效地编码动作的时间方面。这个模型是端到端可训练的，可以在单个步骤中联合优化动作定位和分类。在测试时，该网络预测了包含两个连续帧的微小管，而新算法则能够利用网络学习的时间编码来将它们组合成完整的动作管，计算时间减少了 50%。实验结果证明，该模型在仅利用外观的情况下优于同类方法，在 J-HMDB-21 和 UCF-101 动作检测数据集上表现良好。

Apr, 2017

视频中的动作检测变形管网

本研究提出了一种由 Deformation Tube Proposal Network（DTPN）和 Deformable Tube Recognition Network（DTRN）组成的 Deformable Tube Network，该网络能够对视频进行空间 - 时间动作检测，并通过建立动作的可变形管来检测动作。实验结果表明，与使用 3D cuboids 的方法相比，Deformable Tube Network 的性能显著提高，并在 UCF-Sports 和 AVA 数据集上获得了最先进的结果。

Jul, 2019

TubeR：用于视频动作检测的 Tubelet Transformer

本文提出了一种简单的解决方案 TubeR，用于实现时空视频动作检测，可以有效地增强模型容量，并且直接产生变长动作管道，并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。

Apr, 2021

基于增量策略的人体动作检测管线构建

本文介绍了一种实时、在线的联合标注和关联算法，用于动作检测，可以增量构建空间 - 时间动作管，在最具挑战性的动作视频中，可以同时发生不同的动作类别，其实时关联准确度和速度优于当前最先进的离线系统。

Apr, 2017

视频中动作检测的管状卷积神经网络 (T-CNN)

提出了一种名为 T-CNN 的端到端深度网络，用于进行视频中的行为检测，该网络通过 3D 卷积特征识别并定位行为，能够对修剪和未修剪视频中的行为进行分类和定位。

Mar, 2017

时空动作定位的 Action Tubelet 检测器

本文通过提出 ACT-detector，结合对象检测中的 anchor boxes 思想，利用视频的时间连续性进行动作检测，结果表明在 J-HMDB 和 UCF-101 数据集上，我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法，特别是具有高重叠阈值时，精度和定位都得到了显著的提升。

May, 2017

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016