3D-LLM:将三维世界注入大型语言模型
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
LiDAR-LLM 使用 Large Language Models(LLMs)和 Multimodal Large Language Models(MLLMs)来理解 3D 场景,通过重新构建 3D 场景认知为语言建模问题并使用 View-Aware Transformer(VAT)来加强 LLMs 的空间定向理解,从而实现对 3D 场景的多种指令的理解和复杂空间推理。
Dec, 2023
该研究提出了一种基于大型语言模型(LLMs)的 LI3D 系统,它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中,使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。
May, 2023
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
在本研究中,我们提出了基于 3D 大型多模型(3D LMM)的 Grounded 3D-LLM 模型,在一个统一生成框架中探索了 3D 场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考 3D 场景,将 3D 视觉任务转化为语言格式,从而实现了处理交替 3D 和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将 3D 视觉与语言模型相结合,通过在多个 3D 基准测试上进行全面评估,我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。
May, 2024
通过在互联网规模的空间推理数据上训练 Visual Language Model(VLM),我们显著增强了其在定量和定性空间 VQA 方面的能力,并实现了链式思维空间推理和机器人学等新颖应用。
Jan, 2024
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。
Nov, 2023
PointLLM 是一个基于大型语言模型的初步努力,旨在填补 LLMs 在 3D 理解领域的不足,通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握;采用两阶段的训练策略,先进行潜空间对齐再进行语言调优,从而构建了一个评估点云感知能力和通用性能力的基准,实验结果表明 PointLLM 在现有的 2D 基线上展现出更好的表现。
Aug, 2023
通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND,本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外,该文还提出了一个全面的基准测试 3D-POPE,以系统地评估 3D-LLMs 中的幻觉,并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应,强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是,我们的结果证明了有效的从模拟到真实的转化存在早期信号,表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE,我们的目标是为具身化 AI 社区提供必要的资源和见解,从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。
Jun, 2024