通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证,我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。
Apr, 2020
本文介绍了一种基于 ConvLSTM 和三种不同类型深度预测网络的自监督实时单目深度估计和完成方法,能够产生一系列的深度图,该方法灵活且可与不同类型稀疏深度图案件组合使用,实验表明,我们的方法在自监督场景中始终优于其基于图像的对应方法,并且在三个流行组的深度预测方法中也表现出更好的性能。
Jan, 2020
本研究提出了一种利用循环神经网络和多视图图像重投影以及前向 - 后向流一致性损失来训练的学习型多视图稠密深度地图和里程计估计方法,可用于视频的深度和视觉里程计估计,产生优于现有技术的单视图和多视图深度估计结果。
Apr, 2019
从单目视频序列中学习单张图像深度估计模型是一个非常具有挑战性的问题。在本文中,我们提出了一种新颖的训练损失,使我们能够在训练过程中包含更多图像以进行监督。我们提出了一个简单而有效的模型来考虑帧与帧之间的像素运动。同时,我们还设计了一种新颖的网络架构来进行单张图像估计。当结合在一起时,我们的方法在自监督设置下,在 KITTI 数据集上产生了最先进的结果。
Oct, 2023
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
Dec, 2020
本研究提出一种新颖的视频深度估计方法 ——FutureDepth,通过让模型在训练时学习预测未来来隐式地利用多帧和运动线索来改善深度估计。通过将多帧特征输入到未来预测网络 F-Net 中,模型迭代地预测多帧特征,从而学习了底层的运动和对应信息,并将其特征融入到深度解码过程中。为了丰富多帧对应线索的学习,还利用自适应掩码的多帧特征体积的重建网络 R-Net 进行训练。通过在多个基准测试集上进行广泛实验,包括室内、驾驶和开放领域等场景,实验证明 FutureDepth 在准确性方面显著优于基线模型,超过了现有的视频深度估计方法,并创造了最新的准确性水平。此外,与现有的最新视频深度估计模型相比,FutureDepth 更高效,在与单目模型的比较中具有类似的延迟。
Mar, 2024
提出 ManyDepth,一种自适应的、可以在测试时间利用序列信息的深度估计方法,通过深度自监督训练基于端到端代价体系积攒的方法,鼓励网络忽略不可靠的代价体以及针对静态相机场景的增强方案。实验证明此方法在 KITTI 和 Cityscapes 上表现优于其他单帧和多帧的自监督基线模型。
Apr, 2021
我们的方法通过在网络中添加最新的 3D 几何数据作为额外输入,结合之前的几何提示,利用深度和 3D 场景重建领域中的先前工作,实现了与实时交互速度相比达到最先进的深度估计和场景重建。
Jun, 2024
本文探讨单图像的深度预测问题。通过直观运动估计技术的启发式方法,可以进行无监督的深度卷积神经网络学习,同时结合了一种新的深度归一化策略,实验结果显示优于现有的监督方法。
Dec, 2017
利用全数据驱动的方法计算深度,通过对非刚性场景开发一种新数据集,其中包括大量的非刚性对象,特别是人,提出了一种损失函数进行深度预测,评估方法并表明该方法对自然场景具有更好的泛化能力。