利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

Nov, 2023

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation

Shichao Dong, Fayao Liu, Guosheng Lin

TL;DR通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Abstract

Recently, large-scale pre-trained models such as Segment-Anything Model (SAM) and Contrastive Language-Image Pre-training (CLIP) have demonstrated remarkable success and revolutionized the field of computer vision

large-scale pre-trained models computer vision 2d tasks 3d scene understanding 3d point cloud segmentation

发现论文，激发创造

通过视觉基础模型实现无标签场景理解

该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Jun, 2023

Point-SAM: 可提示的点云三维分割模型

通过使用基于 Transformer 的方法在 3D 空间中扩展了 Segment Anything Model（SAM），我们提出了一种 3D 可提示分割模型（Point-SAM），利用部分级和对象级注释，从 SAM 中生成伪标签，将 2D 知识提取到我们的 3D 模型中，并在室内和室外基准测试中优于最先进的模型，展示了多种应用，如 3D 标注。

Jun, 2024

PointSeg：基于基础模型的三维场景分割的非训练范式

PointSeg 是一种新的无需训练的范例，借助现有的视觉基础模型来解决 3D 场景感知任务，并展示了令人印象深刻的分割性能。

Mar, 2024

SAM3D: 三维场景中物体分割

SAM3D 是一个创新的框架，通过利用 RGB 图像中的 Segment-Anything 模型而无需进一步训练或微调，能够在 3D 点云中预测掩模，首先预测具有 SAM 的 RGB 图像的分割掩模，然后将 2D 掩模投影到 3D 点中。最后，两个相邻帧的点云掩模以双向合并的方式进行合并，最终可以将不同帧预测出的 3D 掩模逐渐合并为整个 3D 场景的 3D 掩模，实验结果表明 SAM3D 能够在不需要对 SAM 进行训练或微调的情况下，实现合理和细粒度的 3D 分割结果。

Jun, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

基于视觉基础模型的无标注语义分割

我们构建了一个轻量级模块，基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征，利用现有的基础模型生成语义分割数据集的免费注释，并使用这个模块为任何预训练视觉编码器带来基于语言的语义，只需少量无注释训练数据，表现出令人印象深刻的泛化能力。

Mar, 2024

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

SAM3D：基于 Segment Anything 模型的零样本三维物体检测

本研究旨在将基础模型的能力发挥在 3D 视觉任务中，在通过 SAM 提出的 BEV 流程管道构建的基础上，通过提高零样例能力实现 3D 物体检测，将其应用于 Waymo 开放数据集，展示其可行性。

Jun, 2023

一个统一的基于点的 3D 分割框架

针对 3D 点云的分割问题，我们提出了一种新的点云分割框架，该框架能有效地优化整个场景的像素级特征，几何结构和全局上下文先验。实验结果表明，该方法优于现有的一些最先进的方法，并探讨了在三维重建场景中合成相机姿态以获得更高的性能。

Aug, 2019

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023