Xiaoben Li, Mancheng Meng, Ziyan Wu, Terrence Chen, Fan Yang...
TL;DR提出了一种名为 CMANet 的全自我监督框架,利用多视角信息来预测准确的多视角 3D 人体姿势,通过聚合视角内和视角间信息,构建一个规范化参数空间
Abstract
multi-view 3d human pose estimation is naturally superior to single view one,
benefiting from more comprehensive information provided by images of multiple
views. The information includes camera poses, 2D/3D human poses, and 3D
geometry. However, the accurate annotation of these inform
提出了一种视角不变的模型,用于从单个深度图像中估计 3D 人体姿态,该模型从一个学习的视角不变特征空间中嵌入局部区域来实现,并采用自下而上的误差反馈机制进行姿态估计,多任务的学习方法可以在噪声和遮挡的情况下选择性地预测局部姿态。通过对一个先前发布的深度数据集和一个包含 10 万个注释深度图像的新收集的人体姿态数据集的评估,实验证明该模型在正面视图上实现了竞争性性能,在替代视角上实现了最先进的性能。
本文提出了一种端到端可训练模型,以单个 RGB 图像感知 3D 场景,估计相机姿态和室内布局,并重建人体和物体网格。通过对所有估计方面施加全面而复杂的损失,我们证明了我们的模型优于现有的人体网格方法和室内场景重建方法。据我们所知,这是第一个在网格级别输出对象和人体预测,并对场景和人体姿态进行联合优化的模型。