动态场景深度预测的 Web 立体视频监督
本研究提出了一种新的方法,使用相邻视频帧的一致性作为监督信号,同时从单目视频中学习深度预测、自运动、目标运动和相机内参数,并且首次实现对相机内参进行无监督学习,从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性,并取得了新的最佳性能。
Apr, 2019
使用基于学生 - 教师策略、数据集成和立体信心引导回归损失的方法,可以提高单目深度估计的精度,并用于高级视觉任务,如室外场景的驾驶情境等。
Apr, 2019
本研究提出一种方法,利用单眼光度一致性为唯一的监督,联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计,通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化,有效提高了单眼深度预测模型的准确性。
Oct, 2020
本文提出了一种新颖的基于 Transformer 的 DynamicStereo 结构来解决从双目摄像机中重构动态场景的问题,并介绍了 Dynamic Replica 数据集来提供更贴近实际应用的训练和评估数据。
May, 2023
本文提出了一种单目深度估计器 SC-Depth,它只需要使用未标记的视频进行训练,并能在推理时实现尺度一致的预测。我们的贡献包括:(i) 我们提出了一种几何一致性损失,惩罚相邻视角之间预测深度的不一致性;(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码;(iii) 我们通过详细的消融研究证明了每个组件的功效,并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外,由于具有尺度一致性预测的能力,我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能,并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后,我们提供了几个演示以进行定性评估。
May, 2021
该研究论文提出了一个自监督学习的方法,用于估计细节丰富的人体深度,并通过照片一致性损失以及 SMPL 模型和 3D 非刚性运动来解决非刚性运动问题,无需真实数据,更容易应用于实际数据集中,最终实验表明其性能表现优异。
May, 2020
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本文提出了一种使用立体匹配网络作为代理从合成数据中学习深度并使用预测的立体视差图来监督单目深度估计网络的方法,并提出了不同的策略以确保学习到的深度感知能力在不同领域之间得到很好的转移。通过大量实验证明了该方法在 KITTI 数据集上具有最先进的单目深度估计结果。
Aug, 2018
本研究提出一种基于卷积神经网络的单张图像深度估计方法,使用更容易获取的双目立体视觉图像替代需要大量对应地面真实深度数据的监督式回归训练,通过利用同一场景下两个视点的对极约束,生成视差图,并利用一种新的训练目标函数,结合左右两张图像的视差图像互相匹配和校准,提高了深度估计的性能表现,从而实现了在 KITTI 数据集上的单张图像深度估计的最新领先水平,甚至超过了基于真实深度训练的监督式方法。
Sep, 2016