STEP: 视频动作检测的时空渐进学习
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
这篇论文提出了一种有效的方法,通过联合静态和运动的 CNN 特征对视频进行帧级别的检测,并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位,其准确性比现有方法提高了 15%至 12%不等。
Jun, 2015
本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测,并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框,并在三个公共数据集上获得了优越的检测结果:UCFSports、J-HMDB 和 UCF101。
Nov, 2018
本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型,通过采用局部窗口注意力和全局注意力模块,实现了对长视频片段中动作的高效检测和定位,与目前流行的基于 Transformer 的模型相比,提高了精度并减少了冗余计算。
Jul, 2022
提出了一个新的方法,利用三个阶段的框架实现了视频中多个并发动作的时空本地化(检测)和分类,通过动态规划构建了最有可能与单个动作实例相关联的检测框序列,其表现在 UCF101、J-HMDB-21 和 LIRIS-HARL 数据集上都显著优于现有结果,改进最大检出率(mAP)比之前提高了约 20%和 11%。
Aug, 2016
我们提出了一个新的框架 —— 动作进化网络(APN),用于视频中的时间动作检测(TAD)。该框架通过检测动作演化过程来定位视频中的动作,并通过训练神经网络来识别动作进程。该框架具有三个主要优势:(1) 我们的神经网络端到端地训练,与优化单独模块的传统方法相反;(2) APN 仅使用动作帧进行训练,使模型能够在动作分类数据集上训练并对背景风格与训练不同的视频具有鲁棒性;(3) 我们的框架通过精细和明确地对时间结构进行编码,有效避免了检测不完整的动作,并在检测持久的动作方面表现出色。凭借这些优势,APN 在检测持久的动作方面取得了竞争性的性能,并且明显优于其他方法。在 0.5 的 IoU 阈值下,APN 在 THUMOS14 数据集上达到了 58.3%的均值平均精度(mAP),在 DFMAD70 数据集上达到了 98.9%的 mAP。
Aug, 2023
本文提出了一种基于对象检测的两阶段模块化系统,用于在未裁剪的安全视频中进行时空动作检测,第一阶段使用层次聚类和时间抖动技术生成稠密的时空建议,第二阶段是一个 TRI-3D 网络,在生成的提议上执行动作分类和时态细化。实验结果表明本文提出的方法在区分不同时长、空间尺度范围内的动作检测方面效果显著。
Nov, 2018
本研究提出了一个深度学习框架,可实时进行多个时空动作的本地化、分类和早期预测,通过实时的 SSD 卷积神经网络进行回归和分类检测,再通过一个高效的在线算法构建和标记动作管道以进行实时分析,对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果,即使与顶级离线竞争对手相比,我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测,本文是首个实现此功能的实时系统。
Nov, 2016
本研究针对视频中时间未被截断的情况下的时空动作检测问题,提出了基于级联提议和位置预测 (CPLA) 模型的帧级动作检测方法,其中采用了级联区域提议网络 (casRPN) 来生成动作提议,利用位置预测网络 (LAN) 对动作的时空一致性进行了处理,并在 UCF101 和 LIRIS-HARL 数据集上展示了模型的有效性。
Jul, 2017