This paper addresses the problem of learning to estimate the depth of
detected objects given some measurement of camera motion (e.g., from robot
kinematics or vehicle odometry). We achieve this by 1) designing a recurrent
neural network (DBox) that estimates the depth of objects using
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。