3DMIT: 3D多模态指导调整用于场景理解
我们提出了一种新的3D-LLMs,将3D世界引入大型语言模型,并利用3D point clouds进行各种3D相关任务,通过我们设计的提示机制收集了超过300k的3D语言数据,实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法,并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。
Jul, 2023
本文介绍了Chat-3D,它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合,实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界,具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上,Chat-3D相对于GPT-4获得了相对得分75.6%。
Aug, 2023
我们引入了Point-Bind,这是一个将三维点云与二维图像、语言、音频和视频对齐的多模态模型。通过ImageBind的引导,我们构建了三维和多模态之间的联合嵌入空间,实现了许多有前景的应用,例如任意到三维生成、三维嵌入算术和三维开放世界理解。此外,我们还提出了Point-LLM,这是第一个遵循三维多模态指令的三维大型语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的LLM中,例如LLaMA,它不需要三维指令数据,但具有出色的三维和多模态问答能力。我们希望我们的工作可以为扩展三维点云到多模态应用的社区照亮一线。
Sep, 2023
LL3DA是一种大型语言3D助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的3D场景中消除歧义。实验证明,LL3DA在3D密集字幕和3D问答方面取得了显著成果,并超越了各种3D视觉语言模型。
Nov, 2023
我们引入了一个名为M3DBench的全面的3D指令跟随数据集,支持多模式指令与文本、图像、3D物体和其他视觉提示相互交错,统一了不同的3D任务,是一个大规模的3D指令跟随数据集,收集了超过320,000个指令响应对,并建立了一个评估大型模型在理解多模态3D提示方面性能的新基准。广泛的实验证明了我们数据集和基准模型的有效性,支持通用的3D中心任务,这将激发未来的研究。
Dec, 2023
通过系统性地将3D视觉语言学习在室内环境中进行有序提升,本研究旨在解决3D视觉语言面临的三个主要挑战,包括复杂的3D场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约68K个3D室内场景的场景语料库SceneVerse以及基于可扩展的场景图生成方法获取的约2.5M个视觉语言对,展示了Grounded Pre-training for Scenes (GPS)的有效性,通过在所有现有的3D视觉定位基准上取得了最先进的性能,并在具有挑战性的3D视觉语言任务的零样本迁移实验中揭示了SceneVerse和GPS的巨大潜力。
Jan, 2024
评估多模态大型语言模型(MLLMs)的性能,集成点云和语言,面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步,从而妨碍该领域的进一步发展。我们引入了可扩展的3D基准测试和大规模指令调整数据集3DBench,提供了一个全面评估MLLMs的可扩展平台,以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围,涉及感知和规划任务,并且我们提出了一个严格的流程来自动生成可扩展的3D指令调整数据集,总共涵盖了10个多模态任务,共生成了超过23万个问答对。通过对热门MLLMs的彻底实验评估、与现有数据集的比较以及训练方案的变异,我们展示了3DBench的优越性,为当前的局限性和潜在研究方向提供了有价值的见解。
Apr, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
本研究针对复杂3D场景理解中的场景编码策略问题,探讨了不同视觉编码模型在多种场景下的优缺点。研究发现,DINOv2表现优异,视频模型在对象级任务中表现突出,而扩散模型在几何任务上表现良好,并指出语言预训练模型在语言相关任务中存在意外局限。这些发现推动了对视觉基础模型的重新思考,并强调了未来在视觉语言和场景理解任务中灵活选择编码器的必要性。
Sep, 2024