在线动作和交互定位和预测

Dec, 2016

Online Localization and Prediction of Actions and Interactions

Khurram Soomro, Haroon Idrees, Mubarak Shah

TL;DR本文提出了一种面向人的在线方法，用于视频中行动和互动的定位和预测。通过使用姿态估计和外观模型结合条件随机场和结构 SVM 方法，该方法可在数帧画面内准确地定位和预测动作和互动。

Abstract

This paper proposes a person-centric and online approach to the challenging problem of localization and prediction of actions and interactions in videos. Typically, →

localization prediction pose estimation conditional random fields structural svm

发现论文，激发创造

单目视频中行人动作的识别和三维定位

本论文旨在通过单目行人动作识别和以自我为中心的视角进行的 3D 定位，预测行人意图和行动轨迹，通过使用传统 JAAD 和 KITTI 数据集以及 H3D 驾驶数据集的定性测试，展示了所提出的行动识别框架和定位方法的有效性和优越性。

Aug, 2020

在线实时多时空动作本地化和预测

本研究提出了一个深度学习框架，可实时进行多个时空动作的本地化、分类和早期预测，通过实时的 SSD 卷积神经网络进行回归和分类检测，再通过一个高效的在线算法构建和标记动作管道以进行实时分析，对于 S/T 动作本地化和早期动作预测在 UCF101-24 和 J-HMDB-21 测试基准中均取得了最新的最佳结果，即使与顶级离线竞争对手相比，我们的系统也可以实现 40fps 的在线 S/T 动作本地化和早期动作预测，本文是首个实现此功能的实时系统。

Nov, 2016

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

基于时间提案演化的精准时间动作定位

提出了一个基于三阶段框架的行动定位方法，包括一个 Actionness 神经网络来生成初始提议，一个 Refinement 网络来进行边界调整，以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优异，尤其是在高 IoU 阈值下的精确定位方面表现出色，mAP@IoU=0.5 达到 34.2%。

Apr, 2018

从视频标签和伪标注中本地化动作

本文提出了一种使用视觉线索代替手动点注释的伪注释，引入了五种伪注释，并提出了一个自动选择和组合它们的相关性度量，从而实现只通过分类标签确定视频中动作的时空位置的算法。在具有挑战性的行动定位数据集上的彻底评估显示，我们达到了与完全盒子监督结果相当的结果。我们还展示了伪注释如何在测试期间被利用来改善弱监督和强监督本地化器。

Jul, 2017

点级监督的行动定位

该论文提出一种基于点监督的行为识别方法，利用无监督的时空提案提取视频中的候选区域，并通过稀疏的点注释指导模型训练，在测试时通过伪点对提案进行筛选，实验结果表明该方法在行为识别上与传统的注释方法不相上下，且能够更好地应对数据的噪声与稀疏性。

May, 2018

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

通过视频预测进行物理交互的无监督学习

开发了一个动作条件视频预测模型，能够显式地模拟像素运动，从而学习关于物理对象运动的知识。同时，模型对对象外貌部分不变，可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集，包括一个具有新颖对象的测试集。实验结果表明，与现有方法相比，我们的方法在定量和定性方面都能更准确地预测视频。

May, 2016

社交场景理解：端到端的多人动作定位与集体活动识别

该论文提出了使用神经网络对人类社交行为进行检测和推断的方法，并通过检测和推断的结果实现了对个体和群体行为的估计。该论文在多个公共基准测试上展示了算法的最新性能。

Nov, 2016

基于点标注的提议的动作定位

该研究旨在通过在视频中对稀疏的一些帧上标注动作的点，利用重叠度量和多实例学习优化的目标，而非繁琐的矩形框注释来提高视频中行动的时空本地化性能，并展示了从 Hollywood2 训练和测试视频得到的 Spatio-temporal 行动注释，即《Hollywood2Tubes》。

Apr, 2016