TL;DR通过使用基于视觉的场景几何形状信息,我们提出了一种用于改善人体姿态估计的新颖机制:多层深度图。我们展示了这种方法可以提高 3D 姿态估计的精度。
Abstract
Full 3d estimation of human pose from a single image remains a challenging
task despite many recent advances. In this paper, we explore the hypothesis
that strong prior information about scene geometry can be use
本文提出了一种端到端可训练模型,以单个 RGB 图像感知 3D 场景,估计相机姿态和室内布局,并重建人体和物体网格。通过对所有估计方面施加全面而复杂的损失,我们证明了我们的模型优于现有的人体网格方法和室内场景重建方法。据我们所知,这是第一个在网格级别输出对象和人体预测,并对场景和人体姿态进行联合优化的模型。