In 3d human pose estimation one of the biggest problems is the lack of large,
diverse datasets. This is especially true for multi-person 3D pose estimation,
where, to our knowledge, there are only machine generated annotations available
for training. To mitigate this issue, we introduc
本文提出了一种混合 2D 和 3D 标签的深度神经网络,通过弱监督迁移学习的方法,将控制实验室环境下的 3D 姿态标签转移到野外图像,使用共享表示直接训练完成增强的 2D 姿态估计子网络和 3D 深度回归子网络,并引入 3D 几何约束来规范 3D 姿态预测,以在无底深度标签的情况下提高准确度。该方法在 2D 和 3D 基准测试中均取得了优异的结果。
提出了一种新的单次拍摄的方法来从单目 RGB 相机中对一般场景中的多人进行 3D 姿态估计,该方法使用新颖的鲁棒姿势地图(ORPM),该地图能够在其他人和场景中的强烈部分遮挡下实现全身姿态推断,并通过人体部位关联,在不需要显式边界框预测的情况下推断任意数量的人的 3D 姿态,并通过实际图像中显示的大型多人交互和遮挡的第一个大规模训练数据集 MuCo-3DHP 进行培训,并在我们的新挑战性的 3D 注释多人测试集 MuPoTs-3D 上取得了良好的性能。
本文提出了一种基于单目摄像头和单个 LiDAR 的方法,用于大规模场景下的 3D 多人姿态估计。通过设计一种有效的多模态融合策略,并充分利用时间信息来指导网络学习自然和连贯的人类运动,以点云的固有几何约束为自我监督,用图像上的 2D 特征点进行弱监督,无需依赖于任何 3D 姿态注释。实验结果表明了该方法的优越性和泛化能力。