深度任何事物 V2

Jun, 2024

Depth Anything V2

Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu...

TL;DR本研究介绍了 Depth Anything V2，通过使用合成图像替代真实标注图像，提升教师模型的容量，并通过大规模伪标注真实图像来教授学生模型，成功构建了效率更高、准确性更好的多种规模深度估计模型，并构建了通用的评估基准，以促进未来的研究。

Abstract

This work presents depth anything v2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1,

depth anything v2 monocular depth estimation model synthetic images pseudo-labeled real images metric depth models

发现论文，激发创造

深度万象：释放大规模未标记数据的潜力

这项工作提出了 Depth Anything，一种非常实用的鲁棒单眼深度估计解决方案。我们通过设计一个数据引擎来扩大数据集，收集并自动注释了大规模的未标记数据（约 62M），从而显著增加了数据覆盖范围，并能够减少泛化误差。我们调研了两种简单而有效的策略，可使数据扩展变得有希望。其次，我们开发了一种辅助监督方法，以强制模型从预训练的编码器中继承丰富的语义先验知识。通过在多个公共数据集和随机捕获的照片上广泛评估其零 - shot 功能，表明了其令人印象深刻的泛化能力。此外，通过使用来自 NYUv2 和 KITTI 的度量深度信息对其进行微调，我们建立了新的 SOTA。我们更好的深度模型还导致了更好的深度条件控制网络。

Jan, 2024

朝着零样本比例感知单目深度估计的方向

本文提出了一种称为 ZeroDepth 的单目深度估计框架，采用输入级几何嵌入和变分潜在表示，并将编码器和解码器阶段解耦合，可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内（NYUv2）和户外（KITTI，DDAD，nuScenes）基准测试中，使用相同的预训练模型取得了最新的最佳成果，优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。

Jun, 2023

医学图像中的深度分析：一项比较研究

评估新发布的 Depth Anything 模型在医疗内窥镜和腹腔镜场景的零样本性能，与在一般场景训练的其他单目深度估计模型以及在内窥镜数据上训练的领域内模型的准确性和推理速度进行比较。发现虽然 Depth Anything 的零样本能力相当令人印象深刻，但在速度和性能方面并不一定优于其他模型。希望本研究能引发在医学场景中应用基础模型进行单目深度估计的进一步研究。

Jan, 2024

DiverseDepth：利用多样数据进行仿射不变深度预测

本文提供了一种使用单目图像进行深度估计的方法，提供了一个大规模且多样化的数据集 Diverse Scene Depth 进行训练，学习到了不受仿射变换影响的深度信息，并通过多分支课程训练实现了对复杂场景的高质量深度恢复。

Feb, 2020

鲁棒的几何保持深度估计 - 使用可微分渲染

通过混合数据集训练模型，预测几何保持的深度，并通过渲染重建场景的新视图以及设计损失函数，促进不同视角下深度估计的一致性，实现了对领域特定尺度和平移系数的自主恢复，优于现有最先进方法的多个基准数据集。

Sep, 2023

从视频中无监督学习尺度一致的深度

本文提出了一种单目深度估计器 SC-Depth，它只需要使用未标记的视频进行训练，并能在推理时实现尺度一致的预测。我们的贡献包括：(i) 我们提出了一种几何一致性损失，惩罚相邻视角之间预测深度的不一致性；(ii) 我们提出了自动定位违反基本静态场景假设并在训练过程中引起噪声信号的移动对象的自我发现掩码；(iii) 我们通过详细的消融研究证明了每个组件的功效，并展示了在 KITTI 和 NYUv2 数据集中高质量的深度估计结果。此外，由于具有尺度一致性预测的能力，我们展示了我们训练的单目深层网络可以轻松地集成到 ORB-SLAM2 系统中以实现更强大和准确的跟踪。提出的混合 Pseudo-RGBD SLAM 在 KITTI 中具有很强的性能，并且在没有额外训练的情况下很好地推广到 KAIST 数据集。最后，我们提供了几个演示以进行定性评估。

May, 2021

深度无处不在：通过透视蒸馏和无标签数据增强提升 360 度单目深度估计

360 度图像的深度估计是虚拟现实、自主导航和沉浸式媒体应用中至关重要的，本研究提出了一种使用未标记 360 度数据的深度估计框架，通过六面立方体投影技术生成伪标签来高效标注 360 度图像的深度，并在深度估计的准确度上展示了显著改进，特别是在零样本情况下。

Jun, 2024

WorDepth: 变分语言先验对单目深度估计的应用

使用单个图像进行三维重建存在困难，使用单个图像与文本描述相结合可以提高度量标度重建性能。

Apr, 2024

学习透明与镜面表面的深度估计

通过神经网络学习适当估计透明或镜面表面的深度，无需任何真实标注，通过图像修复和处理得到可靠的伪标签，用于微调现有的单目或双目网络以学习处理透明或镜面表面，实验证实了我们提出的简单方法带来的显著改进。

Jul, 2023

使用多尺度深度网络从单张图片预测深度图

本文提出了一种新的方法，利用两个深度网络堆栈来解决单张图像深度估计的问题，并应用尺度不变误差来测量深度关系，通过利用原始数据集作为大量训练数据，方法在 NYU Depth 和 KITTI 上实现了最先进的结果。

Jun, 2014