鲁棒性一致的视频深度估计
通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证,我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。
Apr, 2020
通过使用双目输入,引进左右一致性损失函数,并提出一种保存边缘特征的损失函数来改善测试时训练中的深度模糊问题,提出了一种稠密的双目视频深度估计方法,调研结果表明该模型精度可靠。
May, 2023
本文提出了一种单目深度估计器 SC-Depth,它只需要使用未标记的视频进行训练,并能在推理时实现尺度一致的预测。我们的贡献包括:(i) 我们提出了一种几何一致性损失,惩罚相邻视角之间预测深度的不一致性;(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码;(iii) 我们通过详细的消融研究证明了每个组件的功效,并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外,由于具有尺度一致性预测的能力,我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能,并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后,我们提供了几个演示以进行定性评估。
May, 2021
本文提出了一种基于光流和稀疏深度先验的方法,将动态场景模型假设为分段平面模型,计算其局部刚性变换和尽可能刚性的全局变换,无需显式估计 3D 旋转和平移即可高效恢复场景的深度密集图,适用于广泛的场景。
Feb, 2019
本研究提出了一种新的方法,使用相邻视频帧的一致性作为监督信号,同时从单目视频中学习深度预测、自运动、目标运动和相机内参数,并且首次实现对相机内参进行无监督学习,从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性,并取得了新的最佳性能。
Apr, 2019
本文提出了一种无监督学习框架,通过使用视图合成作为监督信号,同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明,我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力,并且在相似的输入设置下,姿态估计表现良好。
Apr, 2017
本文介绍了一种通过自监督学习获得单目序列深度和姿态的方法,该方法不需要基础数据的支持,增加了更强的几何量和时间图像序列内部一致性的约束条件,能够显著提高单目图像序列深度和相对姿态估计的性能。
Sep, 2019
该研究提出了一种基于可微的光流深度预测层的方法,包括光流深度预测层、相机姿态优化模块和深度融合网络,该方法在三个公共数据集上的实验结果表明其性能优于现有的深度估计方法,并具有合理的交叉数据集泛化能力。
Dec, 2019
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本研究提出一种基于卷积神经网络的单张图像深度估计方法,使用更容易获取的双目立体视觉图像替代需要大量对应地面真实深度数据的监督式回归训练,通过利用同一场景下两个视点的对极约束,生成视差图,并利用一种新的训练目标函数,结合左右两张图像的视差图像互相匹配和校准,提高了深度估计的性能表现,从而实现了在 KITTI 数据集上的单张图像深度估计的最新领先水平,甚至超过了基于真实深度训练的监督式方法。
Sep, 2016