Hsiao-Yu Fish Tung, Hsiao-Wei Tung, Ersin Yumer, Katerina Fragkiadaki
TL;DR本文提出了一种基于学习的单摄像头动作捕捉模型,通过神经网络权重优化预测 3D 形状和骨架配置,结合合成数据的强监督和可微渲染的自监督,实现了在测试时间自适应,并展示了比传统优化方法更好的效果。
Abstract
Current state-of-the-art solutions for motion capture from a single camera
are optimization driven: they optimize the parameters of a 3D human model so
that its re-projection matches measurements in the video (e.
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。