LLMI3D:通过单张2D图像赋能大语言模型的3D感知
我们提出了一种新的3D-LLMs,将3D世界引入大型语言模型,并利用3D point clouds进行各种3D相关任务,通过我们设计的提示机制收集了超过300k的3D语言数据,实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法,并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。
Jul, 2023
本文介绍了Chat-3D,它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合,实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界,具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上,Chat-3D相对于GPT-4获得了相对得分75.6%。
Aug, 2023
LL3DA是一种大型语言3D助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的3D场景中消除歧义。实验证明,LL3DA在3D密集字幕和3D问答方面取得了显著成果,并超越了各种3D视觉语言模型。
Nov, 2023
通过Uni3D-LLM,我们引入了一个统一框架,利用大型语言模型(LLM)在点云场景中整合了3D感知、生成和编辑任务,从而让用户能够轻松地根据自然语言描述在场景中生成和修改对象,显著提高操作的灵活性和可控性。
Jan, 2024
ShapeLLM是第一个为具身交互而设计的3D多模态大型语言模型,通过使用3D点云和语言探索通用的3D物体理解能力,并通过扩展ReCon到ReCon++以进行改进的几何理解。利用ReCon++作为3D点云输入编码器进行LLM训练,ShapeLLM在构建的指令跟随数据上进行训练,并在新的人工策划评估基准3D MM-Vet上进行测试,实现了在3D几何理解和语言统一的3D交互任务(如具身视觉基准)中的最新性能。
Feb, 2024
介绍了Scene-LLM,一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的3D视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的3D帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
利用Atlas的3D感知LLM连接器,此简单而优美的策略同时处理高分辨率多视图图像并使用时空建模,在nuScenes数据集上表现出优越的3D检测和自动驾驶规划任务的性能,证明了3D-tokenized LLM是可靠自动驾驶的关键。
May, 2024
本研究针对缺乏大规模3D视觉语言数据集和强大3D编码器的问题,提出了一种简单有效的框架LLaVA-3D。该方法结合了LLaVA的强大2D理解能力与3D Patch表示,实现在2D理解不受损的情况下,提升3D场景理解能力,实验结果显示LLaVA-3D在训练速度和性能上均超过现有的3D多模态模型。
Sep, 2024