Reason3D:基于大规模语言模型的 3D 分割搜索和推理
鉴于目标物体识别需求,我们介绍了一种称为 3D 物体推理部分分割的新型细分任务,旨在根据复杂和隐含的文本查询输出一个基于 3D 物体特定部分的分割蒙版,并提出了一种能够分割 3D 物体部分的模型,并生成与 3D 物体分割请求相对应的自然语言解释。
Apr, 2024
这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割,这是一项新颖任务,通过大型语言模型推理来解释和识别隐含的用户意图,从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架,有效地将当前的基础分割模型和 LLM 连接起来,通过掩码提案选择实现。同时,我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明,我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外,我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。
Apr, 2024
通过扩展多模态大语言模型 (MLLMs) 的感知能力以在三维空间中对图像进行定位和推理,本研究引入了一个名为 Cube-LLM 的新 MLLM,并在 LV3D 数据集上进行预训练,实验表明 Cube-LLM 在整体 MLLM 和特定领域的基准测试中均表现出色,并取得了显著的成果。
May, 2024
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
该研究提出了一种新的推理分割任务,以激活感知系统中的推理分割能力,并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。
Aug, 2023
该研究通过 LLM-TPC 框架,利用大型语言模型,解决了 3D 环境中基于自我的观察进行问题回答的挑战,该方法在 SQA3D 基准测试上表现出了有效性、可解释性和鲁棒性。
Apr, 2024
LiDAR-LLM 使用 Large Language Models(LLMs)和 Multimodal Large Language Models(MLLMs)来理解 3D 场景,通过重新构建 3D 场景认知为语言建模问题并使用 View-Aware Transformer(VAT)来加强 LLMs 的空间定向理解,从而实现对 3D 场景的多种指令的理解和复杂空间推理。
Dec, 2023
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024