Reasoning3D -- 3D 中的基于先验知识与推理: 通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

May, 2024

Reasoning3D -- 3D 中的基于先验知识与推理: 通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models

HTML

PDF

Tianrun Chen, Chunan Yu, Jing Li, Jianqi Zhang, Lanyun Zhu...

TL;DR这篇论文介绍了一种基于零样本推理的3D分割新任务，以搜索和定位物体的部件为目标，它超越了先前的类别特定3D语义分割、3D实例分割和开放词汇3D分割的限制。我们设计了一个简单的基线方法，Reasoning3D，能够理解和执行复杂的命令，对具有上下文感知和推理答案的3D网格进行(细粒度的)特定部分分割。该方法利用现成的预训练二维分割网络，由大型语言模型(LLMs)支持，在零样本的方式下解释用户的输入查询。我们的方法具有泛化性，能够根据隐含的文本查询有效地定位和突出显示3D对象的部分，包括这些组成部分的3D对象和真实世界的扫描数据。此外，我们的无训练方法可实现快速部署，并成为未来研究中关于部件级3D(语义)对象理解的可行通用基线，在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。

Abstract

In this paper, we introduce a new task: zero-shot 3d reasoning segmentation for parts searching and localization for objects, which is a n

发现论文，激发创造

PartNet：大规模精细和分层3D对象部件理解基准测试

本文介绍 PartNet 数据集，该数据集是一个一致的、大规模的、带有精细的、实例级别的和分层的 3D 部分信息的 3D 对象的注释数据集。我们提出了三种评估 3D 部分识别的挑战，包括细粒度语义分割、分层语义分割和实例分割，并基于该数据集进行了实验，结果表明其优越性能。

Dec, 2018

从大型语言模型中提取零样机通用常识，用于机器人三维场景理解

提出了一种使用大型语言模型中通用的常识知识为机器人场景中的物品进行标记，该算法不需要任务特定的预训练，并且可以泛化到任意房间和物品标签——这是机器人场景理解算法中非常理想的特征。该算法基于由现代空间感知系统产生的3D场景图，并希望将为机器人提供更具有可推广性和可扩展性的高级3D场景理解铺平道路。

Jun, 2022

语义抽象：从2D视觉语言模型实现开放式三维场景理解

本文介绍了一种基于视觉语言模型的语义抽象框架，可以为机器人在未结构化的三维环境中推理，并学会三维空间和几何推理技能，并在两个开放式三维场景理解任务上进行了实验测试。

Jul, 2022

OpenMask3D: 开放式词汇的三维实例分割

本研究介绍了一种开放词汇的3D实例分割任务，使用零样本学习来提高模型在目标实例分割方面的泛化性，并设计了OpenMask3D方法，该方法使用预测的类别不可知的3D实例掩码来聚合每个掩码的特征，通过多视图融合和基于CLIP的图像嵌入来提高分割的性能。

Jun, 2023

Lowis3D: 基于语言驱动的开放世界实例级别3D场景理解

通过使用视觉-语言（VL）基础模型，将图像-文本对中的广义知识应用于3D场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉-语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在3D语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

PartSLIP++: 通过多视角实例分割和最大似然估计增强低样本量3D零件分割

PartSLIP++通过使用预训练的2D分割模型和改进的EM算法，取代其前身的启发式3D转换流程，用于开放世界的3D部分分割任务，表现出更好的性能。

Dec, 2023

SAI3D：在3D场景中分割任意实例

SAI3D是一种新颖的零样本三维实例分割方法，通过整合来自Segment Anything Model (SAM)的几何先验和语义线索，将三维场景划分为几何原语，然后逐步合并为与多视角SAM掩码一致的三维实例分割。通过具有动态阈值机制的分层区域增长算法，进一步提升细粒度三维场景解析的鲁棒性。在Scan-Net和更具挑战性的ScanNet++数据集上进行的实证评估表明，我们的方法优于现有的开放词汇基准线，并在ScanNet++上的类别不可知分割中甚至超过了全监督方法。

Dec, 2023

基于推理的大型多模态模型的3D零件分割

鉴于目标物体识别需求，我们介绍了一种称为3D物体推理部分分割的新型细分任务，旨在根据复杂和隐含的文本查询输出一个基于3D物体特定部分的分割蒙版，并提出了一种能够分割3D物体部分的模型，并生成与3D物体分割请求相对应的自然语言解释。

Apr, 2024

Reason3D：基于大规模语言模型的3D分割搜索和推理

Reason3D是一种新型的多模态大型语言模型，通过点云数据和文本提示作为输入，生成文本回答和分割遮罩，实现3D推理分割、分层搜索、精确引用和问题回答等高级任务。

May, 2024

Search3D：分层开放词汇3D分割

本研究解决了现有开放词汇3D实例分割方法在细粒度场景实体识别方面的不足，提出了一种名为Search3D的分层开放词汇3D场景表示方法。该方法支持在不同粒度层次上查找实体，并通过构建系统的基准评估，展示其在场景级开放词汇3D部件分割中的卓越效果。

Sep, 2024