寻找动作管道
本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测,并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框,并在三个公共数据集上获得了优越的检测结果:UCFSports、J-HMDB 和 UCF101。
Nov, 2018
提出了一个新的方法,利用三个阶段的框架实现了视频中多个并发动作的时空本地化(检测)和分类,通过动态规划构建了最有可能与单个动作实例相关联的检测框序列,其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果,改进最大检出率(mAP)比之前提高了约 20%和 11%。
Aug, 2016
提出了一种名为 T-CNN 的端到端深度网络,用于进行视频中的行为检测,该网络通过 3D 卷积特征识别并定位行为,能够对修剪和未修剪视频中的行为进行分类和定位。
Mar, 2017
本研究提出了一种用于视频中动作检测和分割的端到端 3D CNN,利用 3D 卷积特征识别和定位动作,通过平分视频为若干部分,生成不同段落的膜状提议,然后把不同段的提议联系在一起,通过上下文信息实现视频物体分割和动作检测。
Nov, 2017
本研究提出了一种由 Deformation Tube Proposal Network(DTPN)和 Deformable Tube Recognition Network(DTRN)组成的 Deformable Tube Network,该网络能够对视频进行空间 - 时间动作检测,并通过建立动作的可变形管来检测动作。实验结果表明,与使用 3D cuboids 的方法相比,Deformable Tube Network 的性能显著提高,并在 UCF-Sports 和 AVA 数据集上获得了最先进的结果。
Jul, 2019
本研究提出了一种高效的稀疏到密集的框架,通过单次前向传递从视频流中生成动作管提议,既利用了长期信息,又利用了短期信息,设计了动态特征采样模块 (DTS),评估了我们的模型在 UCF101-24,JHMDB-21 和 UCFSports 基准数据集上的有效性,结果表明我们的框架比最近竞争对手快 7.6 倍。
Aug, 2020
本文通过提出 ACT-detector,结合对象检测中的 anchor boxes 思想,利用视频的时间连续性进行动作检测,结果表明在 J-HMDB 和 UCF-101 数据集上,我们的 ACT-detector 检测方法在帧 - 平均精度 (frame-mAP) 和视频 - 平均精度 (video-mAP) 上都优于基于帧的最新方法,特别是具有高重叠阈值时,精度和定位都得到了显著的提升。
May, 2017
本文介绍了一种实时、在线的联合标注和关联算法,用于动作检测,可以增量构建空间 - 时间动作管,在最具挑战性的动作视频中,可以同时发生不同的动作类别,其实时关联准确度和速度优于当前最先进的离线系统。
Apr, 2017
本文提出了一种简单的解决方案 TubeR,用于实现时空视频动作检测,可以有效地增强模型容量,并且直接产生变长动作管道,并在常用的行动检测数据集 AVA、UCF101-24 和 JHMDB51-21 上优于先前的最佳状态。
Apr, 2021