Size Wu, Sheng Jin, Wentao Liu, Lei Bai, Chen Qian...
TL;DR本文介绍了一种从多个校准相机视角估计多个人的 3D 姿势的方法,通过使用图神经网络以及特定任务的模块实现了高性能、低计算复杂度的结果。
Abstract
This paper studies the task of estimating the 3d human poses of multiple
persons from multiple calibrated camera views. Following the top-down paradigm,
we decompose the task into two stages, i.e. person localiza
通过提出的 HG-RCNN 网络,借助 Mask-RCNN 和 Hourglass 结构进行多人 3D 人体姿态估计,实现对每个感兴趣区域(RoI)中 2D 关键点的先预测后提升,最终采用弱透视投影模型和焦距和根偏移的联合优化将估计的 3D 姿态置于相机坐标系下,该网络简单模块化且无需多人 3D 姿态数据集,取得了 MuPoTS-3D 数据集的最优性能,并能近似在相机坐标系下估计 3D 姿态。