TL;DR本文提出了一种从单一深度中进行 3D 手势姿势估计的新方法,包括虚拟视角选择和融合模块,有效解决了视角变化和手部遮挡等问题,并在三大基准数据集上表现出优越性能。
Abstract
3d hand pose estimation from single depth is a fundamental problem in
computer vision, and has wide applications.However, the existing methods still
can not achieve satisfactory hand pose estimation results due t
提出了一种视角不变的模型,用于从单个深度图像中估计 3D 人体姿态,该模型从一个学习的视角不变特征空间中嵌入局部区域来实现,并采用自下而上的误差反馈机制进行姿态估计,多任务的学习方法可以在噪声和遮挡的情况下选择性地预测局部姿态。通过对一个先前发布的深度数据集和一个包含 10 万个注释深度图像的新收集的人体姿态数据集的评估,实验证明该模型在正面视图上实现了竞争性性能,在替代视角上实现了最先进的性能。
本研究报告介绍了我们在 Egocentric 3D Hand Pose Estimation 挑战赛上的工作。采用 AssemblyHands,我们使用基于 ViT 的骨干网络和简单回归器进行 3D 关键点预测,提供了强大的模型基线。我们提出了一种非模型方法,在后处理阶段合并多视图结果,以解决手 - 物体遮挡和自遮挡引起的性能下降问题。此外,我们利用测试时间增强和模型集成进一步改进了方法。我们还发现公共数据集和合理的预处理是有益的。我们的方法在测试数据集上实现了 12.21mm 的 MPJPE,并在 Egocentric 3D Hand Pose Estimation 挑战赛中获得第一名。