WorDepth: 变分语言先验对单目深度估计的应用

Apr, 2024

WorDepth: 变分语言先验对单目深度估计的应用

WorDepth: Variational Language Prior for Monocular Depth Estimation

Ziyao Zeng, Daniel Wang, Fengyu Yang, Hyoungseob Park, Yangchao Wu...

TL;DR使用单个图像进行三维重建存在困难，使用单个图像与文本描述相结合可以提高度量标度重建性能。

Abstract

Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce

three-dimensional reconstruction monocular depth estimation text caption metric-scaled reconstructions language performance improvement

发现论文，激发创造

生成并利用单目深度的概率估计

该研究提出了一种通用的单目模型，可用于深度推理和完成等任务，无需针对每个应用重新训练。该模型在多个任务中均能产生高精度结果。

Jun, 2019

使用深度注意力体指导单目深度估计

本文提出通过深度注意力体加入非局部共面性约束来引导深度估计，从而在室内环境中取得最先进的深度估计结果。

Apr, 2020

朝着零样本比例感知单目深度估计的方向

本文提出了一种称为 ZeroDepth 的单目深度估计框架，采用输入级几何嵌入和变分潜在表示，并将编码器和解码器阶段解耦合，可以在不同域和相机参数的情况下预测任意测试图像的尺度。在户内（NYUv2）和户外（KITTI，DDAD，nuScenes）基准测试中，使用相同的预训练模型取得了最新的最佳成果，优于基于域内数据训练和需要测试时缩放以产生度量估计的方法。

Jun, 2023

基于语言的单目深度估计的深度提示

使用自然语言作为一种显示世界结构的显式先验的研究中，首先证明了语言模型在训练过程中编码了这种隐式偏差，并通过一个简单的学习方法进行提取。然后，通过一个供给 MDE 系统使用的现成实例分割模型提供标签作为语言模型输入的显式假设源。在 NYUD2 数据集上展示了我们方法的性能，并与基准线和随机对照进行了比较的改进。

Mar, 2024

利用传统视觉里程计增强自监督单目深度估计

该论文提出了一种自监督学习的方法，利用几何先验和自编码器来提高单目深度估计的效果，实验结果表明该方法在 KITTI 数据集上的表现优于现有方法，适用于高性能 GPU 和嵌入式设备。

Aug, 2019

关于低级视觉任务的语言指导的稳健性：深度估计的发现

最近的研究在单目深度估计方面取得了很大的进展，通过加入自然语言作为额外的指导获得了令人印象深刻的结果，然而，语言先验的影响尚未被探索，特别是在泛化性和鲁棒性方面，本文通过量化这一先验的影响，并引入方法来评估其在不同背景下的有效性，我们发现当前的语言导向深度估计器只能在场景级描述方面表现最佳，而在低级描述方面却表现更差。尽管利用了额外的数据，这些方法在面对针对性的对抗攻击时不具备鲁棒性，并且在分布偏移增加时性能下降。最后，为未来的研究提供基础，我们识别出了这些方法的故障点，并提供了更好理解这些缺点的见解。随着越来越多的方法在深度估计中使用语言，我们的研究结果突出了需要在实际环境中进行有效部署时需要认真考虑的机会和陷阱。

Apr, 2024

动态场景下的无监督单目深度学习

本研究提出一种方法，利用单眼光度一致性为唯一的监督，联合训练深度、自我运动估计和物体相对于场景的稠密三维平移场的估计，通过已知 3D 平移场的稀疏性和对于刚性移动物体的恒定性进行正则化，有效提高了单眼深度预测模型的准确性。

Oct, 2020

单目深度估计：综述

论文综述了五篇应用不同技术（包括监督、弱监督和无监督学习技术）尝试解决单目深度估计问题的论文，并比较这些论文之间的改进和理解，最后探讨了可能有助于更好地解决这一问题的潜在改进。

Jan, 2019

几何与语义相遇：半监督单目深度估计

通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计，提出了一种半监督的深度估计方法，结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。

Oct, 2018

Metric3D：基于单张图片的零样本度量三维预测

基于大规模数据训练和解决来自不同摄像机模型的度量歧义，实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型，并在 7 个零样本基准测试上展现了领先表现。

Jul, 2023