基于语言规范的自然监督下的三维视觉植根

CVPRApr, 2024

基于语言规范的自然监督下的三维视觉植根

Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners

Chun Feng, Joy Hsu, Weiyu Liu, Jiajun Wu

TL;DR本论文提出了一种利用语言为约束的 Language-Regularized Concept Learner (LARC) 方法，通过从语言属性中提取约束，显著提高了自然监督环境下神经符号概念学习器的准确性，改进了之前工作在自然监督的 3D 视觉定位方面的性能，并展示了广泛的三维视觉推理能力，包括零样本组合、数据效率和可迁移性，为学习无密集监督环境的结构化视觉推理框架打下了有前景的基础。

Abstract

3d visual grounding is a challenging task that often requires direct and dense supervision, notably the semantic label for each object in the scene. In this paper, we instead study the naturally supervised setting

3d visual grounding naturally supervised setting language-regularized concept learner (larc)neuro-symbolic concept learners language-based priors

发现论文，激发创造

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉 - 语言模型的弱监督学习方法，利用 2D 图像和 3D 点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本 - 3D 对应，实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明，3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

神经场上的 3D 概念基础

本文提出了一种利用神经场进行三维概念定位、分割和学习的方法，并通过问题回答来实现可微分的模型训练，实现了在语义和实例分割、三维视觉推理任务中的性能提升。

Jul, 2022

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

词典级对比性视觉引导改进语言建模

基于视觉监督的语言学习过程，通过提供词汇信息的早期层表示，兼容多模态的人类语言习得方式，实现了在语言模型中融入视觉基础的潜力。

Mar, 2024

借助推理能力强化 3D 视觉定位

提出了一种新的任务称为 3D 推理定位，并引入了一个名为 ScanReason 的新基准，该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对，需要推理与定位的相互作用，进一步设计了我们的 ReGround3D 方法，由视觉中心推理模块与多模式大型语言模型（MLLM）驱动的 3D 定位模块组成，通过回顾增强几何和细节从 3D 场景中获得准确的对象位置，并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能，在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。

Jul, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

用于任务导向的语言基础建模的门控注意力架构

提出一种基于端到端可训练神经网络架构，用于在 3D 环境中执行自然语言指令的任务导向语言接地问题，并使用带门控的注意力机制来组合图像和文本表示，并学习执行任务的策略。在一个新的基于 3D 游戏引擎的环境中展示了该模型在未见过的指令和环境下的有效性。

Jun, 2017