通过视觉基础模型实现无标签场景理解

Jun, 2023

通过视觉基础模型实现无标签场景理解

Towards Label-free Scene Understanding by Vision Foundation Models

Runnan Chen, Youquan Liu, Lingdong Kong, Nenglun Chen, Xinge Zhu...

TL;DR该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Abstract

Vision foundation models such as Contrastive Vision-Language Pre-training (clip) and Segment Anything (sam) have demonstrated impressive zero-shot performance on image classification and segmentation tasks. Howev

clip sam supervision 2d and 3d networks semantic segmentation

发现论文，激发创造

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Nov, 2023

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

SAM-CLIP：融合视觉基础模型实现语义和空间理解

我们提出了一种简单的方法，将视觉基础模型（如 CLIP 和 Segment Anything Model）高效地合并成一个统一的模型，以便于边缘设备应用，并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示，同时在零样本语义分割方面取得了新的最先进结果。

Oct, 2023

OpenScene: 利用开放式词汇的 3D 场景理解

使用 OpenScene 和 zero-shot 方法，借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中，以达到不确定性的训练和开放词汇量的查询场景的目的。

Nov, 2022

开放词汇 SAM3D：理解任何三维场景

OV-SAM3D 是一个通用框架，用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解，通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表，结合超点和分割掩模生成最终的 3D 实例，经过对 ScanNet200 和 nuScenes 数据集的实证评估，我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。

May, 2024

跨模态自训练：无需标签的图像与点云对齐学习分类

通过使用 Cross-MoST 优化框架，结合 CLIP 等 2D 视觉语言模型，可以提高无需标签的零样本 3D 视觉模型的分类性能，并且实现图像和点云模态之间的跨模态知识交流。

Apr, 2024

MV-CLIP：多视角 CLIP 用于零样本 3D 形状识别

通过视角选择和分层提示的策略，本研究旨在改进预训练模型在零样本三维形状识别中的信心，实现无需额外训练的令人印象深刻的分类准确性。

Nov, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

CLIP 引导的视觉 - 语言预训练用于 3D 场景问答

本文介绍了一种新颖的 3D 预训练视觉 - 语言方法，将来自 2D 图像的语言知识和视觉概念应用于 3D 世界的理解，使用流行的 CLIP 模型代入编码的 3D 场景特征以评估其 3D 世界推理能力，并在 3D 视觉问答下游任务中证明了该方法的优越性和可解释性。

Apr, 2023