TL;DR该论文提出了一种采用基于图像合成方法生成真实图片数据集以训练 CNN 模型,用于解决 3D 人体姿态估计缺少真实数据的问题,并通过在受控环境和实境的表现表明其可行性。
Abstract
This paper addresses the problem of 3d human pose estimation in the wild. A
significant challenge is the lack of training data, i.e., 2D images of humans
annotated with 3D poses. Such data is necessary to train state-of-the-art CNN
architectures. Here, we propose a solution to generate
本文提出了一种混合 2D 和 3D 标签的深度神经网络,通过弱监督迁移学习的方法,将控制实验室环境下的 3D 姿态标签转移到野外图像,使用共享表示直接训练完成增强的 2D 姿态估计子网络和 3D 深度回归子网络,并引入 3D 几何约束来规范 3D 姿态预测,以在无底深度标签的情况下提高准确度。该方法在 2D 和 3D 基准测试中均取得了优异的结果。