SPARTUN3D:大型语言模型中的情境空间理解3D世界
本文提出了一种开放式3D场景理解模型——RegionPLC,并通过对模型进行训练,使其具有开放词汇识别能力。采用密集视觉提示来引导从2D基本模型中提取区域级视觉语言知识,通过指针鉴别式对比学习,进一步使其实现从标题中对密集场景进行理解,最终在ScanNet、ScanNet200和nuScenes数据集上进行了详尽实验,实现的结果较之前的3D开放式场景理解方法有显著提升。
Apr, 2023
我们提出了一种新的3D-LLMs,将3D世界引入大型语言模型,并利用3D point clouds进行各种3D相关任务,通过我们设计的提示机制收集了超过300k的3D语言数据,实验证明我们的模型在ScanQA上的表现超过了最先进的基准方法,并在3D字幕、任务组合和3D辅助对话方面优于2D VLMs。
Jul, 2023
本文介绍了Chat-3D,它通过将预训练的3D表示与先进的LLM的推理和对话能力相结合,实现了首个用于3D场景的通用对话系统。 Chat-3D能够感知3D世界,具备理解各种3D场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上,Chat-3D相对于GPT-4获得了相对得分75.6%。
Aug, 2023
介绍了Scene-LLM,一种增强3D室内环境中具有交互能力的具身化智能体的3D视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的3D视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释3D视觉信息。我们方法独特之处在于整合了场景级和自我中心的3D信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的3D帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过Scene-LLM的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信Scene-LLM推进了3D视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
该研究通过LLM-TPC框架,利用大型语言模型,解决了3D环境中基于自我的观察进行问题回答的挑战,该方法在SQA3D基准测试上表现出了有效性、可解释性和鲁棒性。
Apr, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
本研究旨在解决缺乏三维监督训练和大规模训练的数据资源问题,探索如何利用预训练语言模型的知识来实现三维场景理解。提出的SceneGPT框架使用3D场景图表示场景,并结合预训练的语言模型进行空间推理和对象理解,验证其在对象语义和空间理解等任务上的有效性。
Aug, 2024
本研究针对当前3D理解领域中缺乏大规模3D-文本配对数据集的问题,提出了一种新任务:3D数据高效点语言理解。我们引入GreenPLM,通过利用更多文本数据来弥补3D数据的不足,使LLM能够在仅需少量3D点云和文本对的情况下,实现稳健的3D物体理解。实验结果表明,GreenPLM只需现有模型12%的3D训练数据便可达到优越的3D理解性能。
Aug, 2024
本研究解决了大型语言模型在理解3D物理世界时缺乏大规模3D-文本对数据集的问题。通过引入GreenPLM,我们利用更多文本数据来弥补3D数据的不足,实现了对3D对象的稳健理解。实验结果表明,GreenPLM只需12%的3D训练数据就能实现卓越的3D理解能力,并且在仅使用文本数据时也能表现出竞争力。
Aug, 2024