使用质量评估网络从视频中学习单张图像深度
本文提出了使用多视图互联网照片集合生成训练数据以解决现有数据集受限的问题,构建了一个基于此想法的大型数据集 MegaDepth,同时通过新的数据清理方法和自动生成数据的方法解决了 MVS 数据的噪声和无法重构的对象等问题。验证表明,基于 MegaDepth 训练的模型不仅适应新的场景,还适应其他各种数据集。
Apr, 2018
该研究论文提出了一个自监督学习的方法,用于估计细节丰富的人体深度,并通过照片一致性损失以及 SMPL 模型和 3D 非刚性运动来解决非刚性运动问题,无需真实数据,更容易应用于实际数据集中,最终实验表明其性能表现优异。
May, 2020
通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证,我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。
Apr, 2020
从单目视频序列中学习单张图像深度估计模型是一个非常具有挑战性的问题。在本文中,我们提出了一种新颖的训练损失,使我们能够在训练过程中包含更多图像以进行监督。我们提出了一个简单而有效的模型来考虑帧与帧之间的像素运动。同时,我们还设计了一种新颖的网络架构来进行单张图像估计。当结合在一起时,我们的方法在自监督设置下,在 KITTI 数据集上产生了最先进的结果。
Oct, 2023
该论文综述了基于深度学习的单个 RGB 图像和视频的深度估计方法,包括输入输出模态、网络结构和学习方法的分类,历史里程碑,以及现有方法使用的流程、数据集和评估指标。
Jun, 2024
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
Dec, 2020
本研究提出了一种新的方法,使用相邻视频帧的一致性作为监督信号,同时从单目视频中学习深度预测、自运动、目标运动和相机内参数,并且首次实现对相机内参进行无监督学习,从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Cityscapes、KITTI 和 EuRoC 数据集上验证了正确性,并取得了新的最佳性能。
Apr, 2019
该研究提出了一种双网络结构及自组装注意力模块,可以直接处理高分辨率图像,从而更有效地生成高分辨率和高准确度的景深图,并在 KITTI 和 Make3D 数据集上实现了单目景深估计中最先进的结果。
Oct, 2019
本文提出了一种无监督学习框架,通过使用视图合成作为监督信号,同时训练深度和相机位姿估计网络以完成从非结构化视频序列中的单目深度和相机运动估计的任务。经验评估表明,我们的方法具备与基于监督方法使用地面真值位姿或深度进行训练的方法相当的单目深度估计能力,并且在相似的输入设置下,姿态估计表现良好。
Apr, 2017