具备3D理解的语言-图像模型

May, 2024

Language-Image Models with 3D Understanding

Jang Hyun Cho, Boris Ivanovic, Yulong Cao, Edward Schmerling, Yue Wang...

TL;DR通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

Abstract

multi-modal large language models (MLLMs) have shown incredible capabilities in a variety of 2D vision and language tasks. We extend MLLMs' perceptual capabilities to ground and reason about images in 3-dimensional spac

发现论文，激发创造

CLEVR3D：3D实际场景中的组合语言与基本视觉推理问答

本文提出了在3D真实世界场景中进行视觉问答任务的VQA-3D，并介绍了第一个VQA-3D数据集CLEVR3D和基于Transformer架构的VQA-3D基准模型TransVQA3D。实验证明，将VQA-3D作为辅助任务可以提高3D场景理解的性能。

Dec, 2021

多视角图像中的三维概念学习和推理

本文提出了一个新的大规模3D多视图视觉问答基准（3DMV-VQA），介绍了一种基于神经场，2D预训练的视觉语言模型和神经推理运算符的3D概念学习与推理（3D-CLR）框架，并评估了各种最先进的模型，发现它们都表现不佳，提出了从多视图图像中推断出世界的紧凑3D表示，并在此基础上执行推理的原则方法，对挑战进行了深入分析并指出了潜在的未来方向。

Mar, 2023

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

LiDAR-LLM：探索大语言模型在3D LiDAR理解方面的潜力

LiDAR-LLM使用Large Language Models（LLMs）和Multimodal Large Language Models（MLLMs）来理解3D场景，通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer（VAT）来加强LLMs的空间定向理解，从而实现对3D场景的多种指令的理解和复杂空间推理。

Dec, 2023

2D和3D视觉问答之间的桥梁：一种用于3D VQA的融合方法

利用问题条件的2D视图选择过程，将2D知识与3D-VQA系统进行整合，通过双Transformer结构紧密结合2D和3D模态，并捕捉模态之间的细粒度相关性，实现了面向3D-VQA的多模态基于Transformer的架构。

Feb, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

3DBench：可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的3D基准测试和大规模指令调整数据集3DBench，提供了一个全面评估MLLMs的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的3D指令调整数据集，总共涵盖了10个多模态任务，共生成了超过23万个问答对。通过对热门MLLMs的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了3DBench的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Apr, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

LLMI3D：通过单张2D图像赋能大语言模型的3D感知

本研究解决了现有小型3D感知模型在逻辑推理和问答方面的不足。通过提出空间增强的局部特征挖掘、3D查询令牌信息解码和基于几何投影的3D推理等新方法，我们开发了LLMI3D模型，并构建了IG3D数据集以提升3D感知能力。实验表明，LLMI3D在性能上显著超越了现有的方法。

Aug, 2024