基于推理的大型多模态模型的3D零件分割

Apr, 2024

基于推理的大型多模态模型的3D零件分割

PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model

Amrin Kareem, Jean Lahoud, Hisham Cholakkal

TL;DR鉴于目标物体识别需求，我们介绍了一种称为3D物体推理部分分割的新型细分任务，旨在根据复杂和隐含的文本查询输出一个基于3D物体特定部分的分割蒙版，并提出了一种能够分割3D物体部分的模型，并生成与3D物体分割请求相对应的自然语言解释。

Abstract

Recent advancements in 3d perception systems have significantly improved their ability to perform visual recognition tasks such as segmentation. However, these systems still heavily rely on explicit human instruc

发现论文，激发创造

PartNet：大规模精细和分层3D对象部件理解基准测试

本文介绍 PartNet 数据集，该数据集是一个一致的、大规模的、带有精细的、实例级别的和分层的 3D 部分信息的 3D 对象的注释数据集。我们提出了三种评估 3D 部分识别的挑战，包括细粒度语义分割、分层语义分割和实例分割，并基于该数据集进行了实验，结果表明其优越性能。

Dec, 2018

PartGlot:从语言参考游戏中学习形状部分分割

PartGlot介绍了一种基于语义部件分割的神经框架和相关架构，仅基于部件引用语言进行学习，利用自然语言反映对象组成结构对对象及其部分形成的准则提出优先权，无需进行大规模的部件几何注释即可仅通过语言学习三维形状部分。

Dec, 2021

OpenMask3D: 开放式词汇的三维实例分割

本研究介绍了一种开放词汇的3D实例分割任务，使用零样本学习来提高模型在目标实例分割方面的泛化性，并设计了OpenMask3D方法，该方法使用预测的类别不可知的3D实例掩码来聚合每个掩码的特征，通过多视图融合和基于CLIP的图像嵌入来提高分割的性能。

Jun, 2023

PartSLIP++: 通过多视角实例分割和最大似然估计增强低样本量3D零件分割

PartSLIP++通过使用预训练的2D分割模型和改进的EM算法，取代其前身的启发式3D转换流程，用于开放世界的3D部分分割任务，表现出更好的性能。

Dec, 2023

SAI3D：在3D场景中分割任意实例

SAI3D是一种新颖的零样本三维实例分割方法，通过整合来自Segment Anything Model (SAM)的几何先验和语义线索，将三维场景划分为几何原语，然后逐步合并为与多视角SAM掩码一致的三维实例分割。通过具有动态阈值机制的分层区域增长算法，进一步提升细粒度三维场景解析的鲁棒性。在Scan-Net和更具挑战性的ScanNet++数据集上进行的实证评估表明，我们的方法优于现有的开放词汇基准线，并在ScanNet++上的类别不可知分割中甚至超过了全监督方法。

Dec, 2023

Reason3D：基于大规模语言模型的3D分割搜索和推理

Reason3D是一种新型的多模态大型语言模型，通过点云数据和文本提示作为输入，生成文本回答和分割遮罩，实现3D推理分割、分层搜索、精确引用和问题回答等高级任务。

May, 2024

Reasoning3D -- 3D 中的基于先验知识与推理: 通过大型视觉语言模型进行细粒度零样本开放词汇的 3D 推理部分分割

这篇论文介绍了一种基于零样本推理的3D分割新任务，以搜索和定位物体的部件为目标，它超越了先前的类别特定3D语义分割、3D实例分割和开放词汇3D分割的限制。我们设计了一个简单的基线方法，Reasoning3D，能够理解和执行复杂的命令，对具有上下文感知和推理答案的3D网格进行(细粒度的)特定部分分割。该方法利用现成的预训练二维分割网络，由大型语言模型(LLMs)支持，在零样本的方式下解释用户的输入查询。我们的方法具有泛化性，能够根据隐含的文本查询有效地定位和突出显示3D对象的部分，包括这些组成部分的3D对象和真实世界的扫描数据。此外，我们的无训练方法可实现快速部署，并成为未来研究中关于部件级3D(语义)对象理解的可行通用基线，在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。

May, 2024

一个统一的三维场景理解框架

提出了UniSeg3D，这是一个统一的三维分割框架，可以在一个模型内完成全景、语义、实例、交互、指向性和开放词汇的语义分割任务。该方法将六个任务统一为由相同Transformer处理的统一表示，促进了任务间的知识共享，从而提升了对三维场景的综合理解。通过利用任务连接，通过设计知识蒸馏和对比学习方法，在多任务统一化的基础上提高了性能。在三个基准测试中的实验证明了UniSeg3D的优越性，即使是那些专门针对特定任务的方法也无法与之相比。希望UniSeg3D能够作为一个坚实的统一基准，并激发未来的研究。

Jul, 2024

3x2：基于2D语义对应的三维物体部件分割

3-By-2是一种通过利用少量标记的3D形状或丰富标记的2D数据集来执行3D物体部件分割的创新方法，能够克服有限的3D注释的挑战，并能够适应不同的部分分类和细粒度，展示不同物体类别之间有趣的部分标签传递能力。

Jul, 2024

Search3D：分层开放词汇3D分割

本研究解决了现有开放词汇3D实例分割方法在细粒度场景实体识别方面的不足，提出了一种名为Search3D的分层开放词汇3D场景表示方法。该方法支持在不同粒度层次上查找实体，并通过构建系统的基准评估，展示其在场景级开放词汇3D部件分割中的卓越效果。

Sep, 2024