We consider the problem of estimating frame-level full human body meshes
given a video of a person with natural motion dynamics. While much progress in
this field has been in single image-based mesh estimation, there has been a
recent uptick in efforts to infer mesh dynamics from video
通过观察人类运动的视觉序列,我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架,通过简单而有效的图像特征时间编码。在测试过程中,学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动,同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练,通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态,证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。
提出了一种 Pose and Mesh Co-Evolution 网络(PMCE),通过将任务分解为视频中基于 3D 人体姿势估计和来自估计的 3D 姿势和时间图像特征的网格顶点回归,解决了从视频中准确、平滑地恢复 3D 人体运动的问题。实验证明,该方法在三个基准数据集(3DPW、Human3.6M 和 MPI-INF-3DHP)上在逐帧准确度和时间一致性方面优于先前的最先进方法。