3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

Jun, 2024

3D-GRAND: 为 3D-LLMs 提供更好的定位和更少的幻觉

3D-GRAND: Towards Better Grounding and Less Hallucination for 3D-LLMs

Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian...

TL;DR通过引入具有 40,087 个家庭场景和 6.2 百万个密集绑定的场景语言指令的 3D-GRAND，本文展示了对 3D-LLMs 中的指令调优在地面设置和降低幻觉方面的显著增强。另外，该文还提出了一个全面的基准测试 3D-POPE，以系统地评估 3D-LLMs 中的幻觉，并促进未来模型之间的公正比较。我们的实验强调了数据集规模和 3D-LLM 性能之间的扩展效应，强调了大规模 3D 文本数据集在推进具身化 AI 研究中的关键作用。值得注意的是，我们的结果证明了有效的从模拟到真实的转化存在早期信号，表明在大规模合成数据上训练的模型在真实世界的 3D 扫描中表现良好。通过 3D-GRAND 和 3D-POPE，我们的目标是为具身化 AI 社区提供必要的资源和见解，从而为更可靠和更好地基于地面的 3D-LLMs 做好准备。

Abstract

The integration of language and 3d perception is crucial for developing embodied agents and robots that comprehend and interact with the p

language 3d perception embodied agents grounding capabilities large-scale dataset

发现论文，激发创造

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

基于参照标记的三维链接语言模型

在本研究中，我们提出了基于 3D 大型多模型（3D LMM）的 Grounded 3D-LLM 模型，在一个统一生成框架中探索了 3D 场景理解的潜力，通过使用场景引用标记作为特殊名词短语来参考 3D 场景，将 3D 视觉任务转化为语言格式，从而实现了处理交替 3D 和文本数据序列的自然方法，并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集，进一步引入了对比性语言场景预训练（CLASP）以有效利用这些数据，从而将 3D 视觉与语言模型相结合，通过在多个 3D 基准测试上进行全面评估，我们展示了 Grounded 3D-LLM 的领先性能和广泛适用性。

May, 2024

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的 3D-LLMs，将 3D 世界引入大型语言模型，并利用 3D point clouds 进行各种 3D 相关任务，通过我们设计的提示机制收集了超过 300k 的 3D 语言数据，实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法，并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。

Jul, 2023

具备 3D 理解的语言 - 图像模型

通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理，本研究引入了一个名为 Cube-LLM 的新 MLLM，并在 LV3D 数据集上进行预训练，实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色，并取得了显著的成果。

May, 2024

SceneVerse：面向基于场景的三维视觉语言学习的规模化

通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升，本研究旨在解决 3D 视觉语言面临的三个主要挑战，包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架，并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对，展示了 Grounded Pre-training for Scenes (GPS) 的有效性，通过在所有现有的 3D 视觉定位基准上取得了最先进的性能，并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。

Jan, 2024

LLMs 跨入 3D 世界：多模态大语言模型对 3D 任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种 3D 数据表示，分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话，以及基于 LLMs 的空间推理、规划和导航等任务中的应用，同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

3DMIT: 3D 多模态指导调整用于场景理解

我们构建了一个包含 75K 个指令 - 回答对的广泛数据集，针对 3D 场景进行了任务，如 3D VQA、3D grounding 和 3D conversation，并引入了一种名为 3DMIT 的新颖且高效的提示调优范例，通过将 3D 空间信息整合到 LLMs 中，使其更好地理解 3D 世界。

Jan, 2024

Chat-3D：数据高效调整大型语言模型，用于 3D 场景的通用对话

本文介绍了 Chat-3D，它通过将预训练的 3D 表示与先进的 LLM 的推理和对话能力相结合，实现了首个用于 3D 场景的通用对话系统。 Chat-3D 能够感知 3D 世界，具备理解各种 3D 场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D 相对于 GPT-4 获得了相对得分 75.6%。

Aug, 2023

Scene-LLM: 扩展语言模型用于 3D 视觉理解和推理

介绍了 Scene-LLM，一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的 3D 视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的 3D 帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

SayPlan：利用 3D 场景图对大型语言模型进行基础，实现可扩展任务规划

SayPlan 是一种可扩展的、基于 LLM 的、大规模任务规划方法，使用 3D 场景图表示，在多层和多房间环境中对机器人的任务进行规划，其方法包括利用 3DSG 的分层结构和引入经典路径规划算法来降低规划范围，并使用迭代重新规划以在图形模拟器中反馈使行动可行和避免规划失败的信息。我们在两个大规模环境上进行了评估，显示了我们的方法能够从抽象和自然语言指令中为移动机械手执行大规模、长范围任务计划。

Jul, 2023