使用语言对任意 3D 物体进行分割

Apr, 2024

Segment Any 3D Object with Language

Seungjun Lee, Yuyang Zhao, Gim Hee Lee

TL;DR本文介绍了一种基于语言指令的语义和几何感知的视觉语言学习框架，通过直接从 3D 点云生成语义相关的掩码，从而在 ScanNetv2、ScanNet200 和 Replica 基准测试中明显优于现有方法，且结果接近全监督对照组，尽管训练数据中缺乏类别标注。

Abstract

In this paper, we investigate open-vocabulary 3d instance segmentation (OV-3DIS) with free-form language instructions. Earlier works that rely on only annotated base categories for training suffer from limited ge

open-vocabulary 3d instance segmentation language instructions semantic-related masks multimodal fusion network visual-language learning

发现论文，激发创造

OpenMask3D: 开放式词汇的三维实例分割

本研究介绍了一种开放词汇的 3D 实例分割任务，使用零样本学习来提高模型在目标实例分割方面的泛化性，并设计了 OpenMask3D 方法，该方法使用预测的类别不可知的 3D 实例掩码来聚合每个掩码的特征，通过多视图融合和基于 CLIP 的图像嵌入来提高分割的性能。

Jun, 2023

Open3DIS: 基于 2D 掩码引导的开放词汇 3D 实例分割

Open3DIS 是对 3D 场景中开放词汇实例分割问题的一种新解决方案，通过聚合帧间的 2D 实例掩码并将其映射到几何连贯的点云区域作为高质量的对象提案，与 3D 非特定类实例提案相结合，能够在真实世界的广泛对象中实现显著的性能提升。

Dec, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024

SAI3D：在 3D 场景中分割任意实例

SAI3D 是一种新颖的零样本三维实例分割方法，通过整合来自 Segment Anything Model (SAM) 的几何先验和语义线索，将三维场景划分为几何原语，然后逐步合并为与多视角 SAM 掩码一致的三维实例分割。通过具有动态阈值机制的分层区域增长算法，进一步提升细粒度三维场景解析的鲁棒性。在 Scan-Net 和更具挑战性的 ScanNet++ 数据集上进行的实证评估表明，我们的方法优于现有的开放词汇基准线，并在 ScanNet++ 上的类别不可知分割中甚至超过了全监督方法。

Dec, 2023

基于语言的室内野外 3D 语义分割

本文提出新的计算机视觉方法，使 3D 语义分割可以更好地理解具有更多类别和自然分布的真实环境，并在新的扩展基准上测试，使用语言驱动的预训练方法使特征更鲁棒。实验结果表明，我们的方法在提出的基准上始终优于现有技术。

Apr, 2022

从自然语言监督中学习开放词汇语义分割模型

本文提出一种基于 Transformer 的模型用于开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS），该模型通过使用网络爬虫图像 - 文本对进行预训练，并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。

Jan, 2023

开放词汇 SAM3D：理解任何三维场景

OV-SAM3D 是一个通用框架，用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解，通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表，结合超点和分割掩模生成最终的 3D 实例，经过对 ScanNet200 和 nuScenes 数据集的实证评估，我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。

May, 2024

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023