基于语言的单目深度估计的深度提示

Mar, 2024

基于语言的单目深度估计的深度提示

Language-Based Depth Hints for Monocular Depth Estimation

Dylan Auty, Krystian Mikolajczyk

TL;DR使用自然语言作为一种显示世界结构的显式先验的研究中，首先证明了语言模型在训练过程中编码了这种隐式偏差，并通过一个简单的学习方法进行提取。然后，通过一个供给 MDE 系统使用的现成实例分割模型提供标签作为语言模型输入的显式假设源。在 NYUD2 数据集上展示了我们方法的性能，并与基准线和随机对照进行了比较的改进。

Abstract

monocular depth estimation (MDE) is inherently ambiguous, as a given image may result from many different 3d scenes and vice versa. To resolve this ambiguity, an MDE system must make assumptions about the most li

monocular depth estimation 3d scenes natural language explicit prior language model

发现论文，激发创造

关于低级视觉任务的语言指导的稳健性：深度估计的发现

最近的研究在单目深度估计方面取得了很大的进展，通过加入自然语言作为额外的指导获得了令人印象深刻的结果，然而，语言先验的影响尚未被探索，特别是在泛化性和鲁棒性方面，本文通过量化这一先验的影响，并引入方法来评估其在不同背景下的有效性，我们发现当前的语言导向深度估计器只能在场景级描述方面表现最佳，而在低级描述方面却表现更差。尽管利用了额外的数据，这些方法在面对针对性的对抗攻击时不具备鲁棒性，并且在分布偏移增加时性能下降。最后，为未来的研究提供基础，我们识别出了这些方法的故障点，并提供了更好理解这些缺点的见解。随着越来越多的方法在深度估计中使用语言，我们的研究结果突出了需要在实际环境中进行有效部署时需要认真考虑的机会和陷阱。

Apr, 2024

WorDepth: 变分语言先验对单目深度估计的应用

使用单个图像进行三维重建存在困难，使用单个图像与文本描述相结合可以提高度量标度重建性能。

Apr, 2024

面向单目深度估计的可解释深度网络

本研究介绍了一种方法，通过测定模型深度的某些隐藏单元对深度的特定区域的选择性，量化了深度网络的解释能力，并提出了一种在不改变原始架构的情况下训练可解释性深度网络的方法，并证明了该方法通过大幅提高其单位的深度选择性来增强深度网络的解释能力，并进一步提供了人们选择单元可靠性的全面分析，方法在不同层次，模型和数据集上的适用性以及对模型错误分析的演示。

Aug, 2021

单目深度估计：综述

论文综述了五篇应用不同技术（包括监督、弱监督和无监督学习技术）尝试解决单目深度估计问题的论文，并比较这些论文之间的改进和理解，最后探讨了可能有助于更好地解决这一问题的潜在改进。

Jan, 2019

自监督单目深度估计的对抗训练：抵抗物理攻击

该论文提出了一种基于视图合成的新型对抗训练方法，用于针对无实际深度信息的自监督 MDE 模型，通过 L0 范数约束来提高对物理世界攻击的鲁棒性，并通过与基于监督学习和对比性学习方法的比较，证明我们的方法可以在几乎不降低良性性能的情况下实现更好的鲁棒性。

Jan, 2023

自监督对抗训练单目深度估计抵抗现实世界攻击

我们提出了一种新颖的自监督对抗训练方法，通过利用视图合成以增强单眼深度估计模型对真实世界攻击的对抗鲁棒性，而无需真实深度的地面真值。我们的方法在两个代表性的单眼深度估计网络上进行实验证明，相比于特别设计用于单眼深度估计的监督学习和对比学习方法，具有更好的鲁棒性，对良性性能影响最小。

Jun, 2024

单目深度估计的不确定度度量与建模

通过引入额外的训练规范项，我们的模型不需要额外的模块或多重推论，可以提供具有最先进可靠性的不确定性估计，并且与组合或抽样方法相结合时可以进一步改进。

Jul, 2023

UniDepth: 通用单目度量深度估计

通过提出的 UniDepth 模型，我们能够从单个图像中重建度量 3D 场景，并实现相机驱动的深度特征的不变性。

Mar, 2024

多样性很重要：充分利用深度线索实现可靠的单目三维物体检测

本文提出了一种基于单张图像深度估计的 3D 物体检测方法，该方法利用细节和多个子任务提取视觉线索并生成多个深度估计值，再通过深度选择和组合策略得到单个深度估计值以提高精度和鲁棒性，在 KITTI 3D 物体检测基准测试中的表现甚至比当前最佳方法都要超过 20%。

May, 2022

医学图像中的深度分析：一项比较研究

评估新发布的 Depth Anything 模型在医疗内窥镜和腹腔镜场景的零样本性能，与在一般场景训练的其他单目深度估计模型以及在内窥镜数据上训练的领域内模型的准确性和推理速度进行比较。发现虽然 Depth Anything 的零样本能力相当令人印象深刻，但在速度和性能方面并不一定优于其他模型。希望本研究能引发在医学场景中应用基础模型进行单目深度估计的进一步研究。

Jan, 2024