Uni3D-LLM:利用大型语言模型统一点云感知、生成和编辑
PointLLM 是一个基于大型语言模型的初步努力,旨在填补 LLMs 在 3D 理解领域的不足,通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握;采用两阶段的训练策略,先进行潜空间对齐再进行语言调优,从而构建了一个评估点云感知能力和通用性能力的基准,实验结果表明 PointLLM 在现有的 2D 基线上展现出更好的表现。
Aug, 2023
本研究通过引入 Uni3DR^2 提取 3D 几何和语义感知表示特征的统一场景表示和重建框架,证明了该框架对于大型语言模型在 3D 场景中的重要性,并在多个实验中取得了令人信服的结果。
Apr, 2024
Uni3DL 是一个统一的 3D 和语言理解模型,它运用于点云而不是传统的多视图图像,实现了对多种 3D 任务的支持,包括语义分割、目标检测、实例分割、视觉定位、3D 字幕和文本 - 3D 跨模态检索,并且在性能上超过了最先进的特定任务模型。
Dec, 2023
ShapeLLM 是第一个为具身交互而设计的 3D 多模态大型语言模型,通过使用 3D 点云和语言探索通用的 3D 物体理解能力,并通过扩展 ReCon 到 ReCon++ 以进行改进的几何理解。利用 ReCon++ 作为 3D 点云输入编码器进行 LLM 训练,ShapeLLM 在构建的指令跟随数据上进行训练,并在新的人工策划评估基准 3D MM-Vet 上进行测试,实现了在 3D 几何理解和语言统一的 3D 交互任务(如具身视觉基准)中的最新性能。
Feb, 2024
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。
Nov, 2023
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
该研究提出了一种基于大型语言模型(LLMs)的 LI3D 系统,它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中,使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。
May, 2023
LiDAR-LLM 使用 Large Language Models(LLMs)和 Multimodal Large Language Models(MLLMs)来理解 3D 场景,通过重新构建 3D 场景认知为语言建模问题并使用 View-Aware Transformer(VAT)来加强 LLMs 的空间定向理解,从而实现对 3D 场景的多种指令的理解和复杂空间推理。
Dec, 2023