单目视频中行人动作的识别和三维定位

Aug, 2020

单目视频中行人动作的识别和三维定位

Recognition and 3D Localization of Pedestrian Actions from Monocular Video

Jun Hayakawa, Behzad Dariush

TL;DR本论文旨在通过单目行人动作识别和以自我为中心的视角进行的 3D 定位，预测行人意图和行动轨迹，通过使用传统 JAAD 和 KITTI 数据集以及 H3D 驾驶数据集的定性测试，展示了所提出的行动识别框架和定位方法的有效性和优越性。

Abstract

Understanding and predicting pedestrian behavior is an important and challenging area of research for realizing safe and effective navigation strategies in automated and advanced driver assistance technologies in urban scenes. This paper focuses on →

pedestrian behavior monocular pedestrian action recognition 3d localization pose intention prediction

发现论文，激发创造

基于 3D 人体关键点的行人过街动作识别和轨迹预测

提出了一个基于多任务学习的框架来识别行人穿越行为并预测其未来轨迹，利用从原始传感器数据提取出来的人体关键点来捕捉丰富的人体姿态和活动信息，同时引入辅助任务和对比学习以提高所学习人体关键点表达式的性能表现。在大规模内部数据集和公共基准数据集上进行验证，证明了该方法在多种评估指标上实现了最先进的性能。

Jun, 2023

城市交通中行人动作和意图识别

本研究使用多种特征提取方法和机器学习算法，使用 JAAD 数据集为基础，聚焦于行人运动和头部方向的检测，达到了 72% 和 85% 的准确率，能有效解决自动驾驶和高级驾驶辅助系统中的行人意图和行动识别问题。

Oct, 2018

基于 3D 地图的自我中心活动识别及定位

提出了一种基于深度概率模型的方法，结合视角与环境信息，实现对运动轨迹和动作识别的 3D 场景理解与定位

May, 2021

实时 3D 人体姿态估计和动作识别的多任务深度学习

本研究提出了一种多任务学习框架，能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术，该框架能有效地处理静态图像和视频剪辑，实现了 100 帧以上的速度，并在四个数据集上显著提高了预测能力。

Dec, 2019

自我中心的三维动作目标预测

该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集，并设计了使用递归神经网络的基线方法，并进行了各种消融研究以验证其有效性，从而证明该新任务值得进一步学习。

Mar, 2022

基于时空 DenseNet 的自主地面车辆的行人实时意图预测

本文提出了一种基于图像序列的单目 RGB 相机的实时框架，使用区别于基线方法的跟踪 - 检测技术和创新的时空 DenseNet 模型识别、跟踪和预测行人在城市交通环境中的意图和动作，以实现对自主地面车辆行为的理解。实验表明，该方法在实时性和效果方面比其他基线方法更具鲁棒性和竞争力，平均精度得分为 84.76％，帧率为 20FPS。

Apr, 2019

人体动作识别中 3D 姿态跟踪的优势

本研究使用追踪和三维姿势来提高动作识别性能，并以 Lagrangian 视角分析人体运动轨迹，从而预测其动作，并提出一种 Lagrangian 动作识别模型，通过融合三维姿势和周围环境，达到业界最佳表现。

Apr, 2023

通用化多相机三维行人检测

提出了一种多相机 3D 行人检测方法，该方法不需要使用目标场景的数据进行训练，通过基于人体姿势和来自现成单目检测器的人物包围框的新启发式方法在地面平面上估计行人位置，然后将这些位置投影到世界地面平面，并用新的团覆盖问题公式进行融合，同时还提出利用域通用的行人再识别模型在融合期间对行人外貌的选择性步骤，评估表明，在具有挑战性的 WILDTRACK 数据集上，所提出的方法获得了 0.569 的 MODA 和 0.78 的 F 分数，优于现有的最先进的通用检测技术。

Apr, 2021

在线动作和交互定位和预测

本文提出了一种面向人的在线方法，用于视频中行动和互动的定位和预测。通过使用姿态估计和外观模型结合条件随机场和结构 SVM 方法，该方法可在数帧画面内准确地定位和预测动作和互动。

Dec, 2016

使用多任务深度学习进行 2D/3D 姿势估计和动作识别

本文提出了一种多任务框架，用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化，与传统分开学习相比准确率显著提高，报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果，证明了其在目标任务上的有效性。

Feb, 2018