从视频中无监督学习尺度一致的深度

May, 2021

从视频中无监督学习尺度一致的深度

Unsupervised Scale-consistent Depth Learning from Video

Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang...

TL;DR本文提出了一种单目深度估计器 SC-Depth，它只需要使用未标记的视频进行训练，并能在推理时实现尺度一致的预测。我们的贡献包括：(i) 我们提出了一种几何一致性损失，惩罚相邻视角之间预测深度的不一致性；(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码；(iii) 我们通过详细的消融研究证明了每个组件的功效，并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外，由于具有尺度一致性预测的能力，我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能，并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后，我们提供了几个演示以进行定性评估。

Abstract

We propose a monocular depth estimator SC-Depth, which requires only unlabelled videos for training and enables the scale-consistent prediction at inference time. Our contributions include: (i) we propose a geome

monocular depth estimator scale-consistent prediction geometry consistency loss self-discovered mask pseudo-rgbd slam

发现论文，激发创造

单目视频中的无监督尺度一致深度与自运动估计

本文介绍了一种基于几何一致性损失和自发现遮罩的深度估计和自我运动估计模型，模型能够处理运动物体和目标的遮挡问题并保证不同样本间的比例一致性。从实验结果来看，我们提出的深度估计模型在 KITTI 数据集上性能最好，并且我们提出的自动驾驶路线规划模型相对于之前的模型在预测全局一致的相机轨迹上有着很大的优势。

Aug, 2019

无监督单目深度估计与左右一致性

本研究提出一种基于卷积神经网络的单张图像深度估计方法，使用更容易获取的双目立体视觉图像替代需要大量对应地面真实深度数据的监督式回归训练，通过利用同一场景下两个视点的对极约束，生成视差图，并利用一种新的训练目标函数，结合左右两张图像的视差图像互相匹配和校准，提高了深度估计的性能表现，从而实现了在 KITTI 数据集上的单张图像深度估计的最新领先水平，甚至超过了基于真实深度训练的监督式方法。

Sep, 2016

视频中的自监督物体运动和深度估计

本文提出了一种自监督学习框架，从视频中估算单个对象的运动和单眼深度，并将对象运动建模为六个自由度刚体变换；此外，该方法还使用实例分割掩码引入对象信息，并通过引入新的几何约束损失项消除运动预测的尺度歧义，实验结果表明，该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动，与自监督研究方法相比，在 3D 场景流预测方面有更好的表现，对动态区域的视差预测也有所贡献。

Dec, 2019

单目自监督深度估计的多模态比例一致性和感知

通过提出一个动态加权的 GPS-to-Scale 损失函数来利用全球定位系统数据提高稠密深度估计，从而实现尺度一致和感知的深度估计。

Mar, 2021

DesNet：基于分解的尺度一致网络用于无监督深度补全

提出了一种基于无监督无尺度深度补全框架的分解尺度一致学习策略（DSCL）和全局深度引导（GDG）模块，旨在获取 LiDAR 扫描的稀疏深度信息，并在室内和室外数据集上超越当前最先进模型的性能。

Nov, 2022

自监督学习的深度和运动在光度不一致下的训练

本文介绍了一种通过自监督学习获得单目序列深度和姿态的方法，该方法不需要基础数据的支持，增加了更强的几何量和时间图像序列内部一致性的约束条件，能够显著提高单目图像序列深度和相对姿态估计的性能。

Sep, 2019

视频深度一致性估计

通过利用传统的运动结构恢复来建立视频中像素的几何约束，使用基于学习的先验 —— 一种单图像深度估计的卷积神经网络，我们给出了一种用于重建密集、几何一致深度的算法。测试时，我们对这个网络进行微调，以满足特定输入视频的几何约束，同时保留其在视频中的其他区域中合成可信深度细节的能力。通过定量验证，我们证明了我们的方法比以前的单目重建方法有更高的准确性和更高的几何一致性。我们的算法能够处理具有轻度动态运动的挑战性手持捕获输入视频。改进重建的质量可以用于场景重建和高级视频视觉效果。

Apr, 2020

朝着零样本比例感知单目深度估计的方向

本文提出了一种称为 ZeroDepth 的单目深度估计框架，采用输入级几何嵌入和变分潜在表示，并将编码器和解码器阶段解耦合，可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内（NYUv2）和户外（KITTI，DDAD，nuScenes）基准测试中，使用相同的预训练模型取得了最新的最佳成果，优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。

Jun, 2023

鲁棒性一致的视频深度估计

本文提出了一种用于估计一致密集深度图和相机姿态的算法，该算法基于学习的深度先验和几何优化相结合，不需要输入相机姿态，并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。

Dec, 2020

动态场景下的无监督单目深度学习

本研究提出一种方法，利用单眼光度一致性为唯一的监督，联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计，通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化，有效提高了单眼深度预测模型的准确性。

Oct, 2020