Perceiving the physical world in 3D is fundamental for self-driving
applications. Although temporal motion is an invaluable resource to human
vision for detection, tracking, and depth perception, such features have not
been thoroughly utilized in modern 3D object detectors. In this wor
提出了一种基于单目视觉的 3D 车辆检测和跟踪的在线框架,并利用 3D 车辆坐标信息和深度匹配对数据进行关联,并设计了一个基于 LSTM 的动作学习模块,以进行更准确的长期运动外推。实验结果表明,该跟踪系统可以提供抗干扰性更强的数据关联和跟踪能力,并且在跟踪 30 米内的行驶车辆方面比基于激光雷达的方法表现更好。
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。