This work proposes an end-to-end approach to estimate full 3D hand pose from
stereo cameras. Most existing methods of estimating hand pose from stereo
cameras apply stereo matching to obtain depth map and use depth-based solution
to estimate hand pose. In contrast, we propose to bypass
本文提出了一种基于卷积神经网络的多阶段流水线方法,仅通过单眼红绿蓝彩色图像在众多的干扰因素下,准确分割和定位手部区域并估计 2D 和 3D 的关节点位置;采用新颖的投影算法计算相对相机坐标系的全局关节点位置,为此引入大规模合成 3D 手部姿态数据集。在 RGB-only 信息下,本文超越了以往的 3D 典型手部姿态估计基准数据集;此外,本文提供了 RGB-only 输入下首个实现双手的准确全局 3D 手部跟踪,并进行了广泛的定量和定性评估。