May, 2024

Reasoning3D -- 3D 中的基于先验知识与推理: 通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

TL;DR这篇论文介绍了一种基于零样本推理的3D分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定3D语义分割、3D实例分割和开放词汇3D分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的3D网格进行(细粒度的)特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型(LLMs)支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示3D对象的部分,包括这些组成部分的3D对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级3D(语义)对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。