本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
该研究旨在通过在视频中对稀疏的一些帧上标注动作的点,利用重叠度量和多实例学习优化的目标,而非繁琐的矩形框注释来提高视频中行动的时空本地化性能,并展示了从 Hollywood2 训练和测试视频得到的 Spatio-temporal 行动注释,即《Hollywood2Tubes》。
Apr, 2016
本研究针对视频中时间未被截断的情况下的时空动作检测问题,提出了基于级联提议和位置预测 (CPLA) 模型的帧级动作检测方法,其中采用了级联区域提议网络 (casRPN) 来生成动作提议,利用位置预测网络 (LAN) 对动作的时空一致性进行了处理,并在 UCF101 和 LIRIS-HARL 数据集上展示了模型的有效性。
Jul, 2017
该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法,其通过学习视频级别的类标签来预测人类动作的时间区间,利用注意力模块鉴别与目标动作有关的重要片段,并通过自适应时间池化融合这些关键片段,同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性,利用类别激活和类别无关的注意力在推断时提取和评分时间建议,以估计与目标动作对应的时间区间,在 THUMOS14 数据集上取得了最先进的结果,并具有卓越的 ActivityNet1.3 性能。
Dec, 2017
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异,尤其是在高 IoU 阈值下的精确定位方面表现出色,mAP@IoU=0.5 达到 34.2%。
Apr, 2018
本文提出了一个基于动态规划的方法来搜索无限制视频片段的动作建议,通过对每个视频帧上的边界框进行动作度量来实现;提出了一个最大集覆盖问题的解决方案,通过关联行为路径来逐步提高建议的质量。
Aug, 2016
本文提出了一种基于循环定位网络(RecLNet)的视频人类行为的时空定位方法,能够显著提高人类行为的时空定位效果,尤其在时间定位方面的改进表现较好,已在 UCF101-24 和 DALY 两个数据集上进行了评估。
Jun, 2018
本文介绍一种视频动作时空本地化的方法,着重于弱监督学习,只需要视频类标签即可。利用演员在动作中的变换特性,引入基于演员提议的算法及注意力机制,对三个行为数据集进行测试,实验结果表明,该方法在弱监督下可以实现与一些强监督学习相当的性能。
本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测,并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框,并在三个公共数据集上获得了优越的检测结果:UCFSports、J-HMDB 和 UCF101。
Nov, 2018
本文提出了一种基于对象检测的两阶段模块化系统,用于在未裁剪的安全视频中进行时空动作检测,第一阶段使用层次聚类和时间抖动技术生成稠密的时空建议,第二阶段是一个 TRI-3D 网络,在生成的提议上执行动作分类和时态细化。实验结果表明本文提出的方法在区分不同时长、空间尺度范围内的动作检测方面效果显著。