TokenHMR：使用令牌化姿态表示改善人体网格恢复

Apr, 2024

TokenHMR：使用令牌化姿态表示改善人体网格恢复

TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation

Sai Kumar Dwivedi, Yu Sun, Priyanka Patel, Yao Feng, Michael J. Black

TL;DR从单个图像中推断3D人体姿态和形状的问题，重点关注3D准确性。目前最好的方法利用大量的3D伪地面真值(p-GT)和2D关键点数据集，以实现稳健性能。我们观察到，随着2D准确性的提高，3D姿势准确性出现矛盾下降。错误的3D姿势是由于当前相机模型的偏差和2D关键点与p-GT的准确匹配引起的。我们定量化了当前相机模型引入的误差，并证明精确拟合2D关键点和p-GT会导致错误的3D姿势。我们提出了新的阈值自适应损失缩放(TALS)来惩罚较大的2D和p-GT损失，但不惩罚较小的损失。此方法可以解释2D数据的多个3D姿势，为了减少模糊性，我们需要一个先验来限制人体姿势的有效空间，我们利用人体姿势的Token编码重新定义了问题，这有效地引入了一个统一的先验。基于EMDB和3DPW数据集的大量实验证明，我们改进的关键点损失和Token编码使我们能够在野外数据上进行训练，并提高了3D准确性，我们的模型和代码可供研究使用。

Abstract

We address the problem of regressing 3d human pose and shape from a single image, with a focus on 3D accuracy. The current best methods leverage large datasets of 3D pseudo-ground-truth (p-GT) and 2d keypoints, l