学习跟踪以进行时空动作定位

Jun, 2015

Learning to track for spatio-temporal action localization

Philippe Weinzaepfel, Zaid Harchaoui, Cordelia Schmid

TL;DR这篇论文提出了一种有效的方法，通过联合静态和运动的 CNN 特征对视频进行帧级别的检测，并通过目标追踪、运动直方图和滑动窗口法实现了时空行为定位，其准确性比现有方法提高了 15％至 12％不等。

Abstract

We propose an effective approach for spatio-temporal action localization in realistic videos. The approach first detects proposals at the frame-level and scores them with a combination of static and motion cnn features<

spatio-temporal action localization cnn features tracking-by-detection motion histogram temporal localization

发现论文，激发创造

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016

基于点标注的提议的动作定位

该研究旨在通过在视频中对稀疏的一些帧上标注动作的点，利用重叠度量和多实例学习优化的目标，而非繁琐的矩形框注释来提高视频中行动的时空本地化性能，并展示了从 Hollywood2 训练和测试视频得到的 Spatio-temporal 行动注释，即《Hollywood2Tubes》。

Apr, 2016

级联建议和位置预测的时空动作检测

本研究针对视频中时间未被截断的情况下的时空动作检测问题，提出了基于级联提议和位置预测 (CPLA) 模型的帧级动作检测方法，其中采用了级联区域提议网络 (casRPN) 来生成动作提议，利用位置预测网络 (LAN) 对动作的时空一致性进行了处理，并在 UCF101 和 LIRIS-HARL 数据集上展示了模型的有效性。

Jul, 2017

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

通过空间行动性估计和时间路径推断和跟踪搜索行动提议

本文提出了一个基于动态规划的方法来搜索无限制视频片段的动作建议，通过对每个视频帧上的边界框进行动作度量来实现；提出了一个最大集覆盖问题的解决方案，通过关联行为路径来逐步提高建议的质量。

Aug, 2016

建模时空人体轨迹结构用于动作定位

本文提出了一种基于循环定位网络（RecLNet）的视频人类行为的时空定位方法，能够显著提高人类行为的时空定位效果，尤其在时间定位方面的改进表现较好，已在 UCF101-24 和 DALY 两个数据集上进行了评估。

Jun, 2018

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

发现时空动作管道

本文提出通过静态和运动信息的早期和后期融合检测和跟踪点匹配算法实现视频中时空动作检测，并使用递归 3D 卷积神经网络来预测并确定生成的动作分类和时间边界。通过引入动作足迹图以及 R3DCNN 卷积层中保留的特定空间特征来细化候选框，并在三个公共数据集上获得了优越的检测结果：UCFSports、J-HMDB 和 UCF101。

Nov, 2018

基于提议的未修剪视频时空动作检测解决方案

本文提出了一种基于对象检测的两阶段模块化系统，用于在未裁剪的安全视频中进行时空动作检测，第一阶段使用层次聚类和时间抖动技术生成稠密的时空建议，第二阶段是一个 TRI-3D 网络，在生成的提议上执行动作分类和时态细化。实验结果表明本文提出的方法在区分不同时长、空间尺度范围内的动作检测方面效果显著。

Nov, 2018