CVPRApr, 2024

TokenHMR:使用令牌化姿态表示改善人体网格恢复

TL;DR从单个图像中推断 3D 人体姿态和形状的问题,重点关注 3D 准确性。目前最好的方法利用大量的 3D 伪地面真值 (p-GT) 和 2D 关键点数据集,以实现稳健性能。我们观察到,随着 2D 准确性的提高,3D 姿势准确性出现矛盾下降。错误的 3D 姿势是由于当前相机模型的偏差和 2D 关键点与 p-GT 的准确匹配引起的。我们定量化了当前相机模型引入的误差,并证明精确拟合 2D 关键点和 p-GT 会导致错误的 3D 姿势。我们提出了新的阈值自适应损失缩放 (TALS) 来惩罚较大的 2D 和 p-GT 损失,但不惩罚较小的损失。此方法可以解释 2D 数据的多个 3D 姿势,为了减少模糊性,我们需要一个先验来限制人体姿势的有效空间,我们利用人体姿势的 Token 编码重新定义了问题,这有效地引入了一个统一的先验。基于 EMDB 和 3DPW 数据集的大量实验证明,我们改进的关键点损失和 Token 编码使我们能够在野外数据上进行训练,并提高了 3D 准确性,我们的模型和代码可供研究使用。