Metric3D：基于单张图片的零样本度量三维预测

ICCVJul, 2023

Metric3D：基于单张图片的零样本度量三维预测

Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image

Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu...

TL;DR基于大规模数据训练和解决来自不同摄像机模型的度量歧义，实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型，并在 7 个零样本基准测试上展现了领先表现。

Abstract

Reconstructing accurate 3d scenes from images is a long-standing vision task. Due to the ill-posedness of the single-image reconstruction problem, most well-established methods are built upon multi-view geometry. State-of-the-art (SOTA) monocular →

3d scenes metric depth estimation monocular methods camera models zero-shot generalization

发现论文，激发创造

Metric3D v2: 用于零样本度量深度和表面法线估计的多功能单目几何基础模型

通过提出一个几何基础模型 Metric3D v2 来实现从单张图像中进行零样本度量深度与表面法线估计，解决了度量 3D 恢复中的度量深度与表面法线估计方面的问题，并实现了对不同设置相机的图片的零样本泛化。

Mar, 2024

朝着零样本比例感知单目深度估计的方向

本文提出了一种称为 ZeroDepth 的单目深度估计框架，采用输入级几何嵌入和变分潜在表示，并将编码器和解码器阶段解耦合，可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内（NYUv2）和户外（KITTI，DDAD，nuScenes）基准测试中，使用相同的预训练模型取得了最新的最佳成果，优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。

Jun, 2023

零射线距离，并行带鉴别力模型的视场条件扩散

使用一种通用的、无任务依赖的扩散模型，采用对数尺度深度参数化来联合建模室内和室外场景，通过视野的条件处理尺度模糊，通过训练中合成视野的方法来推广到训练数据中较有限的相机内参，通过使用更多样化的训练混合和有效的扩散参数化，我们的方法 DMD（Diffusion for Metric Depth）相对误差（REL）在零样本室内数据集上减少 25%，在零样本室外数据集上减少 33%，只使用了少量去噪步骤。

Dec, 2023

ZoeDepth：相对深度和绝对深度结合的零样本迁移

本文提出了一种通过单张图像进行深度估计的方法，该方法结合了相对深度估计和度量深度估计，使用轻量化头部并在每个域中使用度量桶调整设计的新颖二进制分类器，在多个数据集上进行联合训练，并实现前所未有的零 - shot 推断表现。

Feb, 2023

从单张图片学习恢复三维场景形状

研究探讨了在混合数据深度预测训练中使用的位移不变重建损失所引起的未知深度偏移及可能的未知相机焦距问题，并设计了一个两阶段框架以实现单目图像深度预测，并使用三维点云编码器预测遗漏的深度偏移和焦距以恢复逼真的 3D 场景形状，本文提出了图像级标准化回归损失和基于法向几何损失的方法，以增强用混合数据集训练的深度预测模型，该深度模型在 9 个不可见数据集上测试并取得了零样本数据集泛化的最新性能记录。

Dec, 2020

野外的单视图测量

本文提出了一种基于数据驱动先验的、单视图测量的新方法，通过对 3D 实体的边界框投影进行估计，可以使用仅获取的单个图像在自由状态下恢复场景中的绝对尺度，包括对象的 3D 高度、相机高度和相机参数等信息。

Jul, 2020

UniDepth: 通用单目度量深度估计

通过提出的 UniDepth 模型，我们能够从单个图像中重建度量 3D 场景，并实现相机驱动的深度特征的不变性。

Mar, 2024

ROI-10D: 从 2D 检测到 6D 姿态和度量形状的单眼抬升

本文提出了一种深度学习方法，它可以通过端到端的单目 3D 物体检测和度量形状检索，通过提出新的损失公式将 2D 检测、方向和尺度估计提升到 3D 空间，并在 KITTI3D 数据集上展示了与其他强大单目方法和新的最佳结果相比，对 6D 姿态和纹理度量几何学的实例恢复表现出了优异的结果。

Dec, 2018

WorDepth: 变分语言先验对单目深度估计的应用

使用单个图像进行三维重建存在困难，使用单个图像与文本描述相结合可以提高度量标度重建性能。

Apr, 2024

FrozenRecon：基于冻结深度模型的无姿态三维场景重建

我们提出了一种新的测试时间优化方法，可以将仿射不变深度模型的健壮性转移到具有挑战性的多样化场景，同时确保帧间一致性，每个视频帧只需优化几十个参数。实验证明，我们的方法在五个零样本测试数据集上实现了最先进的跨数据集重建。

Aug, 2023