LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

Nov, 2023

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning

Sijin Chen, Xin Chen, Chi Zhang, Mingsheng Li, Gang Yu...

TL;DRLL3DA是一种大型语言3D助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的3D场景中消除歧义。实验证明，LL3DA在3D密集字幕和3D问答方面取得了显著成果，并超越了各种3D视觉语言模型。

Abstract

Recent advances in large multimodal models (LMM) have made it possible for various applications in human-machine interactions. However, developing LMMs that can comprehend, reason, and plan in complex and diverse 3d env

发现论文，激发创造

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的3D-LLMs，将3D世界引入大型语言模型，并利用3D point clouds进行各种3D相关任务，通过我们设计的提示机制收集了超过300k的3D语言数据，实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法，并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。

Jul, 2023

Chat-3D：数据高效调整大型语言模型，用于3D场景的通用对话

本文介绍了Chat-3D，它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合，实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界，具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上，Chat-3D相对于GPT-4获得了相对得分75.6%。

Aug, 2023

点绑定与点LLM：用于三维理解、生成和指令跟随的点云多模态对齐

我们引入了Point-Bind，这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过ImageBind的引导，我们构建了三维和多模态之间的联合嵌入空间，实现了许多有前景的应用，例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外，我们还提出了Point-LLM，这是第一个遵循三维多模态指令的三维大型语言模型（LLM）。通过参数高效的微调技术，Point-LLM将Point-Bind的语义注入到预训练的LLM中，例如LLaMA，它不需要三维指令数据，但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。

Sep, 2023

M3DBench：利用多模态3D提示指导大型模型

我们引入了一个名为M3DBench的全面的3D指令跟随数据集，支持多模式指令与文本、图像、3D物体和其他视觉提示相互交错，统一了不同的3D任务，是一个大规模的3D指令跟随数据集，收集了超过320,000个指令响应对，并建立了一个评估大型模型在理解多模态3D提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性，支持通用的3D中心任务，这将激发未来的研究。

Dec, 2023

3DMIT: 3D多模态指导调整用于场景理解

我们构建了一个包含75K个指令-回答对的广泛数据集，针对3D场景进行了任务，如3D VQA、3D grounding和3D conversation，并引入了一种名为3DMIT的新颖且高效的提示调优范例，通过将3D空间信息整合到LLMs中，使其更好地理解3D世界。

Jan, 2024

Uni3D-LLM：利用大型语言模型统一点云感知、生成和编辑

通过Uni3D-LLM，我们引入了一个统一框架，利用大型语言模型（LLM）在点云场景中整合了3D感知、生成和编辑任务，从而让用户能够轻松地根据自然语言描述在场景中生成和修改对象，显著提高操作的灵活性和可控性。

Jan, 2024

Scene-LLM: 扩展语言模型用于3D视觉理解和推理

介绍了Scene-LLM，一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的3D视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的3D帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

LLMs跨入3D世界：多模态大语言模型对3D任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种3D数据表示，分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话，以及基于LLMs的空间推理、规划和导航等任务中的应用，同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

LLMI3D：通过单张2D图像赋能大语言模型的3D感知

本研究解决了现有小型3D感知模型在逻辑推理和问答方面的不足。通过提出空间增强的局部特征挖掘、3D查询令牌信息解码和基于几何投影的3D推理等新方法，我们开发了LLMI3D模型，并构建了IG3D数据集以提升3D感知能力。实验表明，LLMI3D在性能上显著超越了现有的方法。

Aug, 2024

LLaVA-3D：一个简单而有效的通路，赋能大规模多模态模型以具备3D意识

本研究针对缺乏大规模3D视觉语言数据集和强大3D编码器的问题，提出了一种简单有效的框架LLaVA-3D。该方法结合了LLaVA的强大2D理解能力与3D Patch表示，实现在2D理解不受损的情况下，提升3D场景理解能力，实验结果显示LLaVA-3D在训练速度和性能上均超过现有的3D多模态模型。

Sep, 2024