放松休息 ++：利用慢速电视和婴儿电视扩展超越地面真实深度

Mar, 2024

放松休息 ++：利用慢速电视和婴儿电视扩展超越地面真实深度

Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV & CribsTV

Jaime Spencer, Chris Russell, Simon Hadfield, Richard Bowden

TL;DR通过自监督学习，本研究提出两个新的数据集：SlowTV 和 CribsTV，用于解决自监督单目深度估计 (SS-MDE) 中缺乏多样性训练数据的问题。这些数据集是从公开可用的 YouTube 视频中精心策划而来，包含总共 200 万个训练帧，涵盖了各种环境，从雪林到海岸公路，豪华别墅，甚至水下珊瑚礁。通过这些数据集，本研究在零样本泛化任务上胜过了所有现有的 SS-MDE 方法甚至某些最先进的有监督方法，并进一步通过多种组件和贡献加强了模型的泛化能力，包括学习相机内参、更强的数据增强、支持帧随机化、灵活的运动估计和基于 Transformer 的现代架构。通过广泛的剔除实验证明了每个组件的有效性。为了促进未来研究的发展，本研究将数据集、代码和预训练模型向公众开放。

Abstract

self-supervised learning is the key to unlocking generic computer vision systems. By eliminating the reliance on ground-truth annotations, it allows scaling to much larger data quantities. Unfortunately, self-supervised

self-supervised learning monocular depth estimation datasets zero-shot generalization transformer-based architecture

发现论文，激发创造

放松休闲：通过观看 SlowTV 学习重建世界

自我监督单目深度估计（SS-MDE）具有可扩展到大量数据的潜力。我们通过从 YouTube 中策划的 SlowTV 数据集提供了更多的数据，培养了一个能够实现对室内 / 室外数据集的零 - shot 泛化的 SS-MDE 模型，这一结果超越了所有现有的自监督学习方法，并且在性能上弥补了有监督学习方法的差距。

Jul, 2023

$S^3$Net：基于语义感知的自监督单目视频和合成数据深度估计

本文介紹了一種自監督學習的深度估計方法，在使用合成數據和真實數據訓練的同時，利用幾何、時間和語義約束，實現了單目視頻深度估計的新的最先進技術，相較其他自監督和合成方法提高了 15% 到 10% 不等。

Jul, 2020

SQLdepth: 通用的自监督细粒度单目深度估计

自监督单目深度估计方法 SQLdepth 可以有效地从运动中学习细粒度场景结构，通过自查询层 (SQL) 构建自成本体积来推断深度。实验证明，SQLdepth 方法在自动驾驶等领域达到了卓越的性能，并具有更低的训练复杂度和更好的泛化能力。

Sep, 2023

自我监督的单眼深度估计中迈向更好的数据利用

通过使用数据增强技术和细节增强的 DepthNet，该文提出了一种自我监督单目深度估计方法，拓展了训练数据的利用，并在 KITTI、Make3D 和 NYUv2 数据集上实现了最先进的性能。

Sep, 2023

单目视频中的无监督尺度一致深度与自运动估计

本文介绍了一种基于几何一致性损失和自发现遮罩的深度估计和自我运动估计模型，模型能够处理运动物体和目标的遮挡问题并保证不同样本间的比例一致性。从实验结果来看，我们提出的深度估计模型在 KITTI 数据集上性能最好，并且我们提出的自动驾驶路线规划模型相对于之前的模型在预测全局一致的相机轨迹上有着很大的优势。

Aug, 2019

从视频中无监督学习尺度一致的深度

本文提出了一种单目深度估计器 SC-Depth，它只需要使用未标记的视频进行训练，并能在推理时实现尺度一致的预测。我们的贡献包括：(i) 我们提出了一种几何一致性损失，惩罚相邻视角之间预测深度的不一致性；(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码；(iii) 我们通过详细的消融研究证明了每个组件的功效，并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外，由于具有尺度一致性预测的能力，我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能，并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后，我们提供了几个演示以进行定性评估。

May, 2021

无监督室内深度估计的自校正网络

提出了一种基于自动矫正网络的数据预处理方法，解决了手持场景下旋转运动对单视角深度估计的干扰问题，并针对不同数据集验证了该方法的有效性及通用性。

Jun, 2020

分离和增强：用于尺度不变自监督单目深度估计的双引擎

本研究提出了一种自监督的单目深度估计方法，通过剥离具有尺度敏感性的特征和采取仿真相机缩放的数据增强方法来提高尺度不变性，并使用动态跨尺度交叉注意力模块进一步加强尺度不变特征，在 KITTI 数据集上取得了目前最佳性能。

Oct, 2022

动态场景深度预测的 Web 立体视频监督

利用全数据驱动的方法计算深度，通过对非刚性场景开发一种新数据集，其中包括大量的非刚性对象，特别是人，提出了一种损失函数进行深度预测，评估方法并表明该方法对自然场景具有更好的泛化能力。

Apr, 2019

MegaDepth：从互联网照片中学习单视图深度预测

本文提出了使用多视图互联网照片集合生成训练数据以解决现有数据集受限的问题，构建了一个基于此想法的大型数据集 MegaDepth，同时通过新的数据清理方法和自动生成数据的方法解决了 MVS 数据的噪声和无法重构的对象等问题。验证表明，基于 MegaDepth 训练的模型不仅适应新的场景，还适应其他各种数据集。

Apr, 2018