AMTnet：端到端可训练深度架构的动作 - 微管回归

ICCVApr, 2017

AMTnet：端到端可训练深度架构的动作 - 微管回归

AMTnet: Action-Micro-Tube Regression by End-to-end Trainable Deep Architecture

Suman Saha, Gurkirt Singh, Fabio Cuzzolin

TL;DR本论文提出了一种新的深度神经网络框架，称之为 3D-RPN 网络，能够在纯粹利用外观的情况下有效地编码动作的时间方面。这个模型是端到端可训练的，可以在单个步骤中联合优化动作定位和分类。在测试时，该网络预测了包含两个连续帧的微小管，而新算法则能够利用网络学习的时间编码来将它们组合成完整的动作管，计算时间减少了 50%。实验结果证明，该模型在仅利用外观的情况下优于同类方法，在 J-HMDB-21 和 UCF-101 动作检测数据集上表现良好。

Abstract

Dominant approaches to action detection can only provide sub-optimal solutions to the problem, as they rely on seeking frame-level detections, to later compose them into "action tubes" in a post-processing step. With this paper we radically depart from current practice, and take a firs

action detection deep net framework 3d region proposals temporal encoding end-to-end trainable

发现论文，激发创造

视频中的动作检测变形管网

本研究提出了一种由 Deformation Tube Proposal Network（DTPN）和 Deformable Tube Recognition Network（DTRN）组成的 Deformable Tube Network，该网络能够对视频进行空间 - 时间动作检测，并通过建立动作的可变形管来检测动作。实验结果表明，与使用 3D cuboids 的方法相比，Deformable Tube Network 的性能显著提高，并在 UCF-Sports 和 AVA 数据集上获得了最先进的结果。

Jul, 2019

发现时空动作管道

本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测，并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框，并在三个公共数据集上获得了优越的检测结果：UCFSports、J-HMDB 和 UCF101。

Nov, 2018

预测动作管

该研究提出了一个名为 TPnet 的管道预测网络，能够实时在线地预测整个动作管道，并且在 J-HMDB-21 数据集上取得了先进的检测性能。

Aug, 2018

视频中动作检测和分割的端到端 3D 卷积神经网络

本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN，利用 3D 卷积特征识别和定位动作，通过平分视频为若干部分，生成不同段落的膜状提议，然后把不同段的提议联系在一起，通过上下文信息实现视频物体分割和动作检测。

Nov, 2017

视频中多个时空动作管的深度学习检测

提出了一个新的方法，利用三个阶段的框架实现了视频中多个并发动作的时空本地化（检测）和分类，通过动态规划构建了最有可能与单个动作实例相关联的检测框序列，其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果，改进最大检出率（mAP）比之前提高了约 20％和 11％。

Aug, 2016

视频中动作检测的管状卷积神经网络 (T-CNN)

提出了一种名为 T-CNN 的端到端深度网络，用于进行视频中的行为检测，该网络通过 3D 卷积特征识别并定位行为，能够对修剪和未修剪视频中的行为进行分类和定位。

Mar, 2017

TubeR：用于视频动作检测的 Tubelet Transformer

本文提出了一种简单的解决方案 TubeR，用于实现时空视频动作检测，可以有效地增强模型容量，并且直接产生变长动作管道，并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。

Apr, 2021

寻找动作管道

本文提出了一种动作检测方法，使用从 2D 图像中物体检测领域的最新进展，利用形状和运动线索建立动作模型，并通过运动显著性选择图像区域提取时空特征建立强分类器，得出了时间一致的动作检测结果。

Nov, 2014

使用稀疏到稠密框架寻找行动轨迹

本研究提出了一种高效的稀疏到密集的框架，通过单次前向传递从视频流中生成动作管提议，既利用了长期信息，又利用了短期信息，设计了动态特征采样模块 (DTS)，评估了我们的模型在 UCF101-24，JHMDB-21 和 UCFSports 基准数据集上的有效性，结果表明我们的框架比最近竞争对手快 7.6 倍。

Aug, 2020

视频帧瞥片段的端到端动作检测学习

该研究提出了一种直接预测动作时间边界的完全端到端的方法，其中模型作为一个基于循环神经网络的智能体与视频交互，并使用 REINFORCE 来学习决策策略，取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。

Nov, 2015