结构分段网络在时间动作检测中的应用
本文提出了一种新的视频动作识别框架 - TSN,并探究了在时间段网络的帮助下学习 ConvNet 模型的一系列良好实践策略。实验结果表明,本方法在 HMDB51(69.4%)和 UCF101(94.2%)数据集上取得了最先进的性能。我们还可视化了学习到的 ConvNet 模型,定性展示了时间段网络和所提出良好实践的有效性。
Aug, 2016
本研究提出一种新的解决视频时序动作检测单级方案的方法 - Decoupled Single Shot temporal Action Detection (Decouple-SSAD),通过在并行中设计两个单独的分支来实现定位和分类的解耦,从而提高训练效果。该方法在 THUMOS14 数据集上进行了广泛实验,证明了其优越性能。
Apr, 2019
该研究提出了一种基于 1D 时间卷积层的单次动作检测器(SSAD)网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中,它探讨了输入特征类型和融合策略,并在两个具有挑战性的数据集上进行了广泛的实验,证明了在 THUMOS 2014 和 MEXaction2 的评估过程中,SSAD 的 mAP 比其他最先进的系统增加了很多。
Oct, 2017
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
本研究提出了一种基于帧分割网络(FSN)的方法,通过在 2D 空间 CNN 上放置时间 CNN,利用时空上下文信息通过帧级密集预测,实现对视频剪辑的精确定位,该方法可在弱监督场景下使用,实现了优越的帧级动作定位和时间上的动作定位。
Feb, 2019
本文提出多级时间金字塔网络(MLTPN)方法,采用多级特征金字塔结构和特征融合模块提高时域动作检测的准确性,在 THUMOS'14 数据集上取得了显著的高于先前最先进的方法的表现。
Aug, 2020
本文提出了一种 STAR 网络,用于弱监督多个动作的检测,借助于注意力机制聚合视频片段并使用改进的循环神经网络建立动作之间的时间关系。同时,使用 ST-GradCAM 来生成更精确的时间提案,实验表明本方法在 THUMOS'14 和 ActivityNet1.3 数据集上性能优于现有的弱监督方法,并与全监督方法性能相当。
Nov, 2018
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
Aug, 2016
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016