基于三维视觉特征表示的具身化语言基础

Oct, 2019

基于三维视觉特征表示的具身化语言基础

Embodied Language Grounding with Implicit 3D Visual Feature Representations

Mihir Prabhudesai, Hsiao-Yu Fish Tung, Syed Ashar Javed, Maximilian Sieb, Adam W. Harley...

TL;DR提出结合语言表述和三维可视化的方法，通过生成模型和检测模型等工具，可以从图像中推理出三维可视特征图，并进一步实现语言方面的任务，如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。

Abstract

Consider the utterance "the tomato is to the left of the pot." Humans can answer numerous questions about the situation described, as well as reason through counterfactuals and alternatives, such as, "is the pot larger than the tomato ?", "can we move to a viewpoint from which the tomato is completely hidden behind the pot ?", "can we have an object that is

发现论文，激发创造

Space-语言模型用于3D视觉基础

提出了一种空间语言模型用于3D视觉定位问题，使用基于Transformer的架构将空间嵌入和DistilBert的语言嵌入结合起来进行目标对象预测，能够在ReferIt3D提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

三维物体语言基础

本文介绍了一个新的推理任务，旨在针对三维对象的视觉和非视觉语言，并介绍了用于区分对象的几种 CLIP 模型。虽然最近在联合建模视觉和语言方面取得了进展，但这些基于图像的模型仍然对对象的三维性质了解不足，此文发现，将视图估计添加到语言引理模型可以提高准确性。

Jul, 2021

视觉空间推理

本研究提出Visual Spatial Reasoning（VSR）数据集，这是包含超过10k已标注的英文自然文本图像对和66种空间关系的数据集，研究表明当前视觉语言模型只能达到约70％的准确率，无法识别有关物体朝向的关系。

Apr, 2022

NS3D: 三维物体和关系的神经符号基础

本文提出了 NS3D 三维场景认知神经符号框架，通过使用基于大规模语言编程模型的层级结构来将语言翻译为程序，不同的功能模块实现为神经网络，并引入管高度关系的功能模块有效地推理复杂场景中物体之间的关系，在数据效率和泛化方面表现出色，在3D视角相关任务ReferIt3D上获得了最先进的结果。

Mar, 2023

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将3D视觉语言学习在室内环境中进行有序提升，本研究旨在解决3D视觉语言面临的三个主要挑战，包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对，展示了Grounded Pre-training for Scenes (GPS)的有效性，通过在所有现有的3D视觉定位基准上取得了最先进的性能，并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。

Jan, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

基于纯文本语言模型的空间关系基础

文中通过提供对象的显式位置信息并进行适当训练，展示出仅文本的语言模型（Language Models）可以学习到类似“左侧”或“下方”等空间关系。通过对视觉空间推理（Visual Spatial Reasoning）数据集的一个口语化版本进行实验，其中图像与包含真实或虚假空间关系的文本语句相配对。作者使用现有的物体检测器给图像增添了位置标记，以文本形式表示每个物体的边界框。尽管视觉空间推理数据集较小，但使用位置信息并无明显改进，然而，通过在由作者衍生的合成数据集上进行预训练，使用位置标记的结果显著改善。作者因此展示了位置信息使语言模型能够对空间关系进行基础性的理解，仅文本的语言模型表现优于视觉与语言模型，成为视觉空间推理数据集的最新技术成果。作者的分析显示，仅文本的语言模型在一定程度上能够推广到合成数据集中未出现的关系，并且还学习了比我们用来创建合成数据集的空间规则中所编码的更有用的信息。

Mar, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

SpatialRGPT：视觉语言模型中的基于场景的空间推理

通过数据处理和深度信息集成，Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力，并且在空间推理任务中显著提高了性能。

Jun, 2024