动态场景下的无监督单目深度学习
本文提出了一种监督学习的、以单目摄像头为基础的端到端联合训练框架,该框架明确地建立了多个动态物体的 6-DoF 运动、自运动和景深,通过使用神经正向投影模块建立几何正确的投影流水线,在建模每个刚性物体的运动时突出了逆投影和正向投影之间的基本差异。通过使用任何现成的实例分割和光流模型,我们介绍了一种通用的自动注释方案来生成视频实例分割映射,这些映射将用作训练管道的输入。最后,我们使用 KITTI 和 Cityscapes 数据集进行了广泛的实验研究,证明了我们的框架优于现有的深度和运动估计方法。
Feb, 2021
本文提出了一种无监督学习框架,通过使用视图合成作为监督信号,同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明,我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力,并且在相似的输入设置下,姿态估计表现良好。
Apr, 2017
本研究提出了一种新的方法,使用相邻视频帧的一致性作为监督信号,同时从单目视频中学习深度预测、自运动、目标运动和相机内参数,并且首次实现对相机内参进行无监督学习,从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性,并取得了新的最佳性能。
Apr, 2019
我们提出了一种既利用结构又利用语义的方法,用于单目无监督学习深度和自我运动,模拟单个物体的运动并联合学习它们的三维运动矢量以及深度和自我运动,尤其适用于挑战性的动态场景,本文是 Casser 等人的扩展版本。
Jun, 2019
通过一种自监督学习框架,提出一种基于动态关注模块的两阶段投影管道,以明确解耦相机自我运动和物体运动,并提出了一种基于对比采样一致性的物体运动场估计方法,该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。
Oct, 2021
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本文提出了一种自主引导的语义深度估计方法(SGDepth),通过交叉域训练避免移动车辆和行人等动态类别对象对深度标签的干扰,利用异构网络头进行语义分割和深度估计,采用语义遮罩机制预防动态物体的污染,并引入一种检测算法学习移动类别对象的深度。通过在多个数据集上评估验证了该方法的性能。
Jul, 2020
提出了一种新颖的无监督学习深度和自我运动的方法,它主要基于对场景的推断 3D 几何形状进行对齐,并与基于光度学营养和有效性掩模的 2D 损失相结合,最终得出在 KITTI 数据集上的优越结果。
Feb, 2018
我们提出了一种全面的联合训练框架,该框架在单目相机设置中明确建模多个动态对象、自我运动和深度而不需要监督,并且具有高效的深度和运动估算,并通过实验证明了其优于现有深度和运动估算方法。
Dec, 2019