融合流 - 深度提议的视频深度估计
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
Dec, 2020
本文介绍了一种使用多投影融合框架的深度神经网络来估计 360 度光流的方法,以解决全景表示在卷积神经网络中的畸变问题。同时,建立了第一个大规模的全景光流数据集,并证明了该方法在性能上优于现有的方法和其他处理 360 度内容的深度网络。
Jul, 2022
DFPNet 是一种联合学习系统,通过单眼图像序列估计单眼景深、光流和自身运动(相机姿态),使用单一的复合损失函数进行训练,并使用超参数调整来使模型的大小小于目前市场上同类模型的 5%以下。在 KITTI 和 Cityscapes 驾驶数据集上进行评估,结果表明我们的模型在所有三个任务上的表现都可以媲美目前市场上同类模型的表现,即使模型大小明显更小。
May, 2022
使用流场匹配的方法,通过引入预训练的图像扩散模型作为先验,允许仅在合成数据上进行训练的深度估计模型在真实图像上得到泛化;引入辅助表面法线损失进一步改进深度估计,模型对深度估计的置信度进行可靠预测,且在复杂自然场景的标准基准上,轻量级的方法表现优秀且计算成本低。
Mar, 2024
本文介绍了一种名为 FG-Depth 的简单而有效的框架,通过利用预训练的 Flow-Net 的先验知识来引导优化,从而打破了无监督单眼深度估计的瓶颈,提出了流蒸馏损失和基于先验流的掩模来提高模型性能以及消除噪声,实验结果表明,该方法在 KITTI 和 NYU-Depth-v2 数据集上均达到了最领先的效果。
Jan, 2023
通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证,我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。
Apr, 2020
本文提出了一种基于深度学习的方法 NFlowNet,通过直接法而非经典的视觉 SLAM 方法,通过图像梯度来估算相机的位姿,实现了对于姿态的倒易约束,经实验证明该方法的泛化性能较好并优于其他已有方法。
Mar, 2022
提出了一种自监督室内单目深度估计框架 F^2Depth,利用自监督光流估计网络对深度学习进行监督,结合经过精调的光流估计网络产生的多尺度特征图进行特征图融合损失计算,实验结果表明该框架及其提出的损失函数具有较好的室内场景单目图像泛化能力。
Mar, 2024