TL;DR提出了一种新方法,通过使用稀疏的 3D CNN 估计场景的绝对位置和密集的场景接触,并通过与其相关的 3D 场景线索的交互关注来加强预训练的人类 mesh 回收网络的关节学习,进而提高每个正向遍历的准确性和速度。
Abstract
We present a novel method for recovering the absolute pose and shape of a
human in a pre-scanned scene given a single image. Unlike previous methods that
perform sceneaware mesh optimization, we propose to first
本文提出了一种端到端可训练模型,以单个 RGB 图像感知 3D 场景,估计相机姿态和室内布局,并重建人体和物体网格。通过对所有估计方面施加全面而复杂的损失,我们证明了我们的模型优于现有的人体网格方法和室内场景重建方法。据我们所知,这是第一个在网格级别输出对象和人体预测,并对场景和人体姿态进行联合优化的模型。