3D-LLM：将三维世界注入大型语言模型

Jul, 2023

3D-LLM：将三维世界注入大型语言模型

3D-LLM: Injecting the 3D World into Large Language Models

Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du...

TL;DR我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Abstract

Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject th

发现论文，激发创造

M3DBench：利用多模态3D提示指导大型模型

我们引入了一个名为M3DBench的全面的3D指令跟随数据集，支持多模式指令与文本、图像、3D物体和其他视觉提示相互交错，统一了不同的3D任务，是一个大规模的3D指令跟随数据集，收集了超过320,000个指令响应对，并建立了一个评估大型模型在理解多模态3D提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性，支持通用的3D中心任务，这将激发未来的研究。

Dec, 2023

LiDAR-LLM：探索大语言模型在3D LiDAR理解方面的潜力

LiDAR-LLM使用Large Language Models（LLMs）和Multimodal Large Language Models（MLLMs）来理解3D场景，通过重新构建3D场景认知为语言建模问题并使用View-Aware Transformer（VAT）来加强LLMs的空间定向理解，从而实现对3D场景的多种指令的理解和复杂空间推理。

Dec, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

统一场景表示和重建用于三维大型语言模型

本研究通过引入Uni3DR^2提取3D几何和语义感知表示特征的统一场景表示和重建框架，证明了该框架对于大型语言模型在3D场景中的重要性，并在多个实验中取得了令人信服的结果。

Apr, 2024

3DBench：可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的3D基准测试和大规模指令调整数据集3DBench，提供了一个全面评估MLLMs的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的3D指令调整数据集，总共涵盖了10个多模态任务，共生成了超过23万个问答对。通过对热门MLLMs的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了3DBench的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Apr, 2024

MiniGPT-3D：利用2D先验信息高效对齐大型语言模型中的3D点云

MiniGPT-3D是一种高效而强大的3D-LLM，仅经过27小时在一台RTX 3090上训练，在2D-LLMs的2D先验知识的帮助下，使用四阶段训练策略进行模态对齐，并采用高效聚合特征的混合查询专家模块，以及低参数的微调方法LoRA和Norm微调，在3D对象分类和字幕任务上实现了具有显著较低训练成本的SOTA结果。

May, 2024

具备3D理解的语言-图像模型

通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

May, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于3D大型多模型（3D LMM）的Grounded 3D-LLM模型，在一个统一生成框架中探索了3D场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考3D场景，将3D视觉任务转化为语言格式，从而实现了处理交替3D和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将3D视觉与语言模型相结合，通过在多个3D基准测试上进行全面评估，我们展示了Grounded 3D-LLM的领先性能和广泛适用性。

May, 2024