单目视频中行人动作的识别和三维定位
提出了一个基于多任务学习的框架来识别行人穿越行为并预测其未来轨迹,利用从原始传感器数据提取出来的人体关键点来捕捉丰富的人体姿态和活动信息,同时引入辅助任务和对比学习以提高所学习人体关键点表达式的性能表现。在大规模内部数据集和公共基准数据集上进行验证,证明了该方法在多种评估指标上实现了最先进的性能。
Jun, 2023
本研究使用多种特征提取方法和机器学习算法,使用 JAAD 数据集为基础,聚焦于行人运动和头部方向的检测,达到了 72% 和 85% 的准确率,能有效解决自动驾驶和高级驾驶辅助系统中的行人意图和行动识别问题。
Oct, 2018
本研究提出了一种多任务学习框架,能够同时从单眼彩色图像中估算二维或三维的人体姿态并分类人体动作。通过参数共享与关键预测部分解耦等技术,该框架能有效地处理静态图像和视频剪辑,实现了 100 帧以上的速度,并在四个数据集上显著提高了预测能力。
Dec, 2019
该研究旨在从自我中心视角预测人的物体操纵行为的目标位置。他们提出了一个包含 RGB-D 和 IMU 流的大型多模态数据集,并设计了使用递归神经网络的基线方法,并进行了各种消融研究以验证其有效性,从而证明该新任务值得进一步学习。
Mar, 2022
本文提出了一种基于图像序列的单目 RGB 相机的实时框架,使用区别于基线方法的跟踪 - 检测技术和创新的时空 DenseNet 模型识别、跟踪和预测行人在城市交通环境中的意图和动作,以实现对自主地面车辆行为的理解。实验表明,该方法在实时性和效果方面比其他基线方法更具鲁棒性和竞争力,平均精度得分为 84.76%,帧率为 20FPS。
Apr, 2019
本研究使用追踪和三维姿势来提高动作识别性能,并以 Lagrangian 视角分析人体运动轨迹,从而预测其动作,并提出一种 Lagrangian 动作识别模型,通过融合三维姿势和周围环境,达到业界最佳表现。
Apr, 2023
提出了一种多相机 3D 行人检测方法,该方法不需要使用目标场景的数据进行训练,通过基于人体姿势和来自现成单目检测器的人物包围框的新启发式方法在地面平面上估计行人位置,然后将这些位置投影到世界地面平面,并用新的团覆盖问题公式进行融合,同时还提出利用域通用的行人再识别模型在融合期间对行人外貌的选择性步骤,评估表明,在具有挑战性的 WILDTRACK 数据集上,所提出的方法获得了 0.569 的 MODA 和 0.78 的 F 分数,优于现有的最先进的通用检测技术。
Apr, 2021
本文提出了一种面向人的在线方法,用于视频中行动和互动的定位和预测。通过使用姿态估计和外观模型结合条件随机场和结构 SVM 方法,该方法可在数帧画面内准确地定位和预测动作和互动。
Dec, 2016
本文提出了一种多任务框架,用于联合解决静态图像的二维和三维姿势估计及视频序列的人类动作识别问题。实现了端到端优化,与传统分开学习相比准确率显著提高,报告了使用该方法对 MPII、Human3.6M、Penn Action 和 NTU 四个数据集的测试结果,证明了其在目标任务上的有效性。
Feb, 2018