May, 2024

Reasoning3D -- 3D 中的基于先验知识与推理:通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

TL;DR这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。