神经视频深度稳定器
通过利用传统的运动结构恢复来建立视频中像素的几何约束,使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络,我们给出了一种用于重建密集、几何一致深度的算法。测试时,我们对这个网络进行微调,以满足特定输入视频的几何约束,同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证,我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。
Apr, 2020
该研究旨在通过利用现有视频生成模型中的先验知识,将视频深度估计问题转化为条件生成问题,以降低学习难度并增强泛化能力。通过实证验证,作者提出了一种先优化空间层再优化时间层的训练策略,并通过滑动窗口策略在任意长的视频上进行推断,从而获得更具时间一致性的深度估计结果。实验结果表明,作者提出的 ChronoDepth 方法在估计深度的时间一致性方面优于现有方法,并在深度条件视频生成和新视角合成等实际应用中展示了更一致的视频深度的益处。
Jun, 2024
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
Dec, 2020
通过使用双目输入,引进左右一致性损失函数,并提出一种保存边缘特征的损失函数来改善测试时训练中的深度模糊问题,提出了一种稠密的双目视频深度估计方法,调研结果表明该模型精度可靠。
May, 2023
本文提出了一种新颖的基于 Transformer 的 DynamicStereo 结构来解决从双目摄像机中重构动态场景的问题,并介绍了 Dynamic Replica 数据集来提供更贴近实际应用的训练和评估数据。
May, 2023
利用全数据驱动的方法计算深度,通过对非刚性场景开发一种新数据集,其中包括大量的非刚性对象,特别是人,提出了一种损失函数进行深度预测,评估方法并表明该方法对自然场景具有更好的泛化能力。
Apr, 2019
本文提出了一种单目深度估计器 SC-Depth,它只需要使用未标记的视频进行训练,并能在推理时实现尺度一致的预测。我们的贡献包括:(i) 我们提出了一种几何一致性损失,惩罚相邻视角之间预测深度的不一致性;(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码;(iii) 我们通过详细的消融研究证明了每个组件的功效,并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外,由于具有尺度一致性预测的能力,我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能,并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后,我们提供了几个演示以进行定性评估。
May, 2021
本文研究如何利用法线估计模型和预测的法线图提高深度质量,方法包括联合学习多视角法线估计和深度估计模块以及提出一种新的一致性损失来训练一个独立的一致性模块来细化深度 / 法线对。实验结果表明,该方法具有高精度、平滑等优点,在多个数据集上的表现均优于现有技术。
Nov, 2019
本文介绍了一种基于多视角几何基础的方法,旨在提高自由移动相机拍摄图像的新观点综合效果。该方法利用多视角立体匹配和单目深度信息的互补特性以及基于多重旋转平均图优化来联合优化场景深度和相机位姿,并综合聚合整个场景的特征以提高视景综合效果。本文丰富的评估表明,该方法较之现有技术提高了相当多的综合效果。
Mar, 2023