关于低级视觉任务的语言指导的稳健性：深度估计的发现

CVPRApr, 2024

关于低级视觉任务的语言指导的稳健性：深度估计的发现

On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation

Agneet Chatterjee, Tejas Gokhale, Chitta Baral, Yezhou Yang

TL;DR最近的研究在单目深度估计方面取得了很大的进展，通过加入自然语言作为额外的指导获得了令人印象深刻的结果，然而，语言先验的影响尚未被探索，特别是在泛化性和鲁棒性方面，本文通过量化这一先验的影响，并引入方法来评估其在不同背景下的有效性，我们发现当前的语言导向深度估计器只能在场景级描述方面表现最佳，而在低级描述方面却表现更差。尽管利用了额外的数据，这些方法在面对针对性的对抗攻击时不具备鲁棒性，并且在分布偏移增加时性能下降。最后，为未来的研究提供基础，我们识别出了这些方法的故障点，并提供了更好理解这些缺点的见解。随着越来越多的方法在深度估计中使用语言，我们的研究结果突出了需要在实际环境中进行有效部署时需要认真考虑的机会和陷阱。

Abstract

Recent advances in monocular depth estimation have been made by incorporating natural language as additional guidance. Although yielding impressive results, the impact of the language prior, particularly in terms

monocular depth estimation natural language generalization robustness low-level descriptions

发现论文，激发创造

基于语言的单目深度估计的深度提示

使用自然语言作为一种显示世界结构的显式先验的研究中，首先证明了语言模型在训练过程中编码了这种隐式偏差，并通过一个简单的学习方法进行提取。然后，通过一个供给 MDE 系统使用的现成实例分割模型提供标签作为语言模型输入的显式假设源。在 NYUD2 数据集上展示了我们方法的性能，并与基准线和随机对照进行了比较的改进。

Mar, 2024

WorDepth: 变分语言先验对单目深度估计的应用

使用单个图像进行三维重建存在困难，使用单个图像与文本描述相结合可以提高度量标度重建性能。

Apr, 2024

语言能理解深度吗？

本文提出一种名为 DepthCLIP 的方法，将基于对比学习的语言 - 图像预训练（CLIP）应用于零样本单目深度估计任务中，成功地将语义上的知识迁移到了更为复杂的几何量化目标中，而无需训练，超越了现有的无监督方法，甚至接近了早期的全监督网络。

Jul, 2022

三维视觉语言模型真正理解自然语言吗？

3D-VL 模型面临语言输入样式的敏感性，本研究通过提出一个语言鲁棒性任务和设计 3D 语言鲁棒性数据集评估现有模型的性能，在各种 3D-VL 任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块，缺乏多样性的现有数据集是其根源，最后通过由 LLM 驱动的无需训练模块来提高语言鲁棒性。

Mar, 2024

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

语义视觉定位

该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题，该方法使用生成模型进行描述符学习，并在语义场景补全作为辅助任务进行训练，以使得生成的三维描述符具有鲁棒性，并能够实现在极端视角，光照和几何变化下的可靠定位。

Dec, 2017

VLind-Bench：大型视觉 - 语言模型中的语言先验测量

通过新的基准测试 VLind-Bench，本研究评估和分析了近期的大型视觉语言模型 (LVLMs)，发现几乎所有模型都过度依赖于语言先验，这对该领域构成了巨大挑战。

Jun, 2024

基于物体对比学习的视觉 - 语言预训练技术在三维场景理解中的应用

本文提出了一种 3D 视觉语言预训练框架 3DVLP，可以在 3D 视觉语言下游任务中有很好的表现，该框架考虑了场景中物体的关联性，提出了多个任务来实现对象级交叉对齐和区分，与任务特定方法相比具有更好的泛化性能。

May, 2023

Paparazzi：深入探究语言和视觉模型在观点描述中的能力

本论文研究了 CLIP 模型在 3D 环境下对物体视角描述和识别中的表现以及对少量可用训练数据条件下的硬负采样和随机对比进行微调。

Feb, 2023