TL;DR该研究提出了一种新的 3D 人体姿态估计方法,即利用肢体方向与肢体区域的边界框一起表示 3D 姿态,并且通过简单的方法在多项基准测试中取得了良好的结果,该方法具有较好的泛化性能。
Abstract
In this paper, we propose a fully convolutional network for 3D human pose
estimation from monocular images. We use limb orientations as a new way to
represent 3D poses and bind the orientation together with the <
通过提出的 HG-RCNN 网络,借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计,实现对每个感兴趣区域(RoI)中 2D 关键点的先预测后提升,最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下,该网络简单模块化且无需多人 3D 姿态数据集,取得了 MuPoTS-3D 数据集的最优性能,并能近似在相机坐标系下估计 3D 姿态。
提出了一种视角不变的模型,用于从单个深度图像中估计 3D 人体姿态,该模型从一个学习的视角不变特征空间中嵌入局部区域来实现,并采用自下而上的误差反馈机制进行姿态估计,多任务的学习方法可以在噪声和遮挡的情况下选择性地预测局部姿态。通过对一个先前发布的深度数据集和一个包含 10 万个注释深度图像的新收集的人体姿态数据集的评估,实验证明该模型在正面视图上实现了竞争性性能,在替代视角上实现了最先进的性能。
本文提出了一种用于从单个 RGB 图像中估计人类姿势的统一方法,通过联合推理 2D 关节估计和 3D 姿势重建来改善两个任务,并使用可信的 3D 地标位置知识来对更好的 2D 位置进行搜索,并通过多级卷积神经网络架构综合了 3D 人体姿势的概率知识,并在 Human3.6M 数据集上进行了端到端的训练,最终获得了在 2D 和 3D 误差上优于之前方法的最新结果。