SceneGPT：一种用于三维场景理解的语言模型

Aug, 2024

SceneGPT：一种用于三维场景理解的语言模型

SceneGPT: A Language Model for 3D Scene Understanding

Shivam Chandhok

TL;DR本研究旨在解决缺乏三维监督训练和大规模训练的数据资源问题，探索如何利用预训练语言模型的知识来实现三维场景理解。提出的SceneGPT框架使用3D场景图表示场景，并结合预训练的语言模型进行空间推理和对象理解，验证其在对象语义和空间理解等任务上的有效性。

Abstract

Building models that can understand and reason about 3D scenes is difficult owing to the lack of data sources for 3D supervised training and large-scale training regimes. In this work we ask - How can the knowledge in a pre-trained Language Model be leveraged for →

发现论文，激发创造

基于语言辅助的三维特征学习，用于语义场景理解

通过文本场景描述信息辅助 3D 特征学习，进而提升三维语义场景理解的效果，并构建更好的语言与三维结构的多模态任务。

Nov, 2022

RegionPLC：区域点-语言对比学习用于开放世界3D场景理解

本文提出了一种开放式3D场景理解模型——RegionPLC，并通过对模型进行训练，使其具有开放词汇识别能力。采用密集视觉提示来引导从2D基本模型中提取区域级视觉语言知识，通过指针鉴别式对比学习，进一步使其实现从标题中对密集场景进行理解，最终在ScanNet、ScanNet200和nuScenes数据集上进行了详尽实验，实现的结果较之前的3D开放式场景理解方法有显著提升。

Apr, 2023

Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

本文介绍了Chat-3D，它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合，实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界，具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D相对于GPT-4获得了相对得分75.6%。

Aug, 2023

LiDAR-LLM：探索大语言模型在3D LiDAR理解方面的潜力

LiDAR-LLM使用Large Language Models（LLMs）和Multimodal Large Language Models（MLLMs）来理解3D场景，通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer（VAT）来加强LLMs的空间定向理解，从而实现对3D场景的多种指令的理解和复杂空间推理。

Dec, 2023

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于3D大型多模型（3D LMM）的Grounded 3D-LLM模型，在一个统一生成框架中探索了3D场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考3D场景，将3D视觉任务转化为语言格式，从而实现了处理交替3D和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将3D视觉与语言模型相结合，通过在多个3D基准测试上进行全面评估，我们展示了Grounded 3D-LLM的领先性能和广泛适用性。

May, 2024

OpenScan：通用开放词汇3D场景理解基准

本研究解决了现有3D场景理解方法未能充分评估开放词汇问题的缺陷，特别是在对象类以外的领域。提出了一个新颖的任务，即广义开放词汇3D场景理解(GOV-3D)，并贡献了基准OpenScan，涵盖多个细粒度对象属性。研究发现，现有方法在应对GOV-3D任务中的抽象词汇方面存在显著困难，强调了现有方法的局限性并探讨了克服这些短板的方向。

Aug, 2024

R2G：在三维场景中进行推理以实现落地

本研究旨在解决三维场景中目标物体落地的可解释性问题。提出的R2G模型通过构建基于语义概念的场景图，动态模拟对象间的注意力转移，从而实现更高概率的目标物体落地过程。实验结果表明，R2G在保持以前工作成果的情况下，显著提高了结果的可解释性，为三维语言落地开辟了新路径。

Aug, 2024

SPARTUN3D：大型语言模型中的情境空间理解3D世界

本研究解决了当前3D基础大型语言模型在情境理解方面的缺陷，主要表现为缺乏具有情境背景的3D数据集以及空间表示与自然语言之间的对齐问题。通过引入镶嵌了多种情境空间推理任务的可扩展数据集Spartun3D，并与一个新的情境空间对齐模块结合，该研究显著提高了3D视觉表示与文本描述之间的对齐性能，进而改善了3D基础大型语言模型的情境空间理解能力。

Oct, 2024