TL;DR该研究论文提出了一种基于深度学习和递归神经网络的方法,采用含有 3D 注释的合成单眼视频来恢复完整的 3D 人体姿势,并在定量和定性分析中证明了该方法的有效性。
Abstract
Advances in deep learning have recently made it possible to recover full 3D
meshes of human poses from individual images. However, extension of this notion
to videos for recovering temporally coherent poses still
通过观察人类运动的视觉序列,我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架,通过简单而有效的图像特征时间编码。在测试过程中,学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动,同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练,通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态,证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。