Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

Aug, 2023

Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes

Zehan Wang, Haifeng Huang, Yang Zhao, Ziang Zhang, Zhou Zhao

TL;DR本文介绍了Chat-3D，它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合，实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界，具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D相对于GPT-4获得了相对得分75.6%。

Abstract

3d scene understanding has gained significant attention due to its wide range of applications. However, existing methods for 3d scene understanding are limited to specific downstream tasks, which hinders their pr

发现论文，激发创造

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA是一种大型语言3D助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的3D场景中消除歧义。实验证明，LL3DA在3D密集字幕和3D问答方面取得了显著成果，并超越了各种3D视觉语言模型。

Nov, 2023

Chat-3D v2：通过对象标识符将3D场景与大型语言模型相连接

我们提出了一种使用对象标识符在对话中自由引用对象的方法，通过学习每个对象的属性感知令牌和关系感知令牌来解决建立可靠的对象-标识符一对一对应关系以及在LLM的嵌入空间中融入复杂的空间关系的挑战，并通过指令调整在各种下游任务上对模型进行微调，实验证明了我们提出方法的有效性，同时创建了一个包含丰富对象标识符的3D场景字幕数据集，以进一步探索对象标识符在有效对象引用和精确场景理解中的能力。

Dec, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

统一场景表示和重建用于三维大型语言模型

本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

通过提问实现三维视觉与语言理解的统一化

通过统一各种三维场景表示方法，使用可提示的查询（Promptable Queries）解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型（PQ3D）。在十个多样化的三维视觉语言数据集上进行测试，PQ3D在这些任务中表现出令人印象深刻的性能，并在大多数基准测试中创造了新记录。

May, 2024

SceneGPT：一种用于三维场景理解的语言模型

本研究旨在解决缺乏三维监督训练和大规模训练的数据资源问题，探索如何利用预训练语言模型的知识来实现三维场景理解。提出的SceneGPT框架使用3D场景图表示场景，并结合预训练的语言模型进行空间推理和对象理解，验证其在对象语义和空间理解等任务上的有效性。

Aug, 2024

SPARTUN3D：大型语言模型中的情境空间理解3D世界

本研究解决了当前3D基础大型语言模型在情境理解方面的缺陷，主要表现为缺乏具有情境背景的3D数据集以及空间表示与自然语言之间的对齐问题。通过引入镶嵌了多种情境空间推理任务的可扩展数据集Spartun3D，并与一个新的情境空间对齐模块结合，该研究显著提高了3D视觉表示与文本描述之间的对齐性能，进而改善了3D基础大型语言模型的情境空间理解能力。

Oct, 2024