自动驾驶的 3D 无监督学习：通过提炼 2D 开放词汇分割模型实现

May, 2024

自动驾驶的 3D 无监督学习：通过提炼 2D 开放词汇分割模型实现

3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving

Boyi Sun, Yuhang Liu, Xingxia Wang, Bin Tian, Long Chen...

TL;DR提出了一种由 2D 开放词汇的分割模型辅助的新型三维无监督框架（UOV），通过学习未标注数据的点云表征，采用了两个阶段：首先，创新地结合了 2D 开放词汇模型的高质量文本和图像特征，提出了三模态对比预训练（TMP）；其次，利用点云和图像之间的空间映射生成伪标签，实现异态知识蒸馏。并引入了近似平面交互（AFI）来解决对齐噪声和标签混淆问题。在多个相关数据集上进行了大量实验证明了 UOV 的优越性，在 nuScenes 的无需标注的点云分割任务上，实现了创纪录的 47.73% 的 mIoU，超过了之前最好模型 10.70% 的 mIoU。同时，在 nuScenes 和 SemanticKITTI 上使用 1% 的数据进行微调，取得了显著的 51.75% 和 48.14% 的 mIoU，超过了所有之前的预训练模型。

Abstract

point cloud data labeling is considered a time-consuming and expensive task in autonomous driving, whereas unsupervised learning can avoid it by learning point cloud representations from unannotated data. In this

point cloud data labeling unsupervised learning 3d unsupervised framework 2d open-vocabulary segmentation models pseudo-labels

发现论文，激发创造

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023

U3DS$^3$: 无监督的三维语义场景分割

针对任何整体三维场景，本论文提出了 U3DS$^3$ 作为一个完全无监督的点云分割方法，通过利用点云的固有信息来实现全三维场景分割，并且在 ScanNet、SemanticKITTI 和 S3DIS 数据集上提供了最新的研究成果和具有竞争力的结果。

Nov, 2023

激光雷达点的自动词汇分割

自动驾驶中现有的感知方法无法识别训练数据中未覆盖的未知实体。开放词汇方法能够检测任何目标，但受限于用户指定的查询代表目标类别。我们提出了 AutoVoc3D，一种用于自动目标类别识别和开放式分割的框架。在 nuScenes 中的评估显示了 AutoVoc3D 生成精确的语义类别和准确的逐点分割的能力。此外，我们引入了一种新的度量方法 Text-Point 语义相似性，用于评估文本和点云之间的语义相似性，而不排除新的类别。

Jun, 2024

UniM-OV3D：使用细粒度特征表示的单模态开放词汇三维场景理解

本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D)，通过对齐点云、图像、语言和深度信息，设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习，实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。

Jan, 2024

无需三维注释的开放词汇点云物体检测

本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法，该方法使用图像预训练模型来学习定位各种对象，并连接文本和点云表示，以便根据提示文本对新对象类别进行分类，从而实现开放式词汇 3D 目标检测，同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。

Apr, 2023

通过跨模态蒸馏和超体素聚类进行三维点云的无监督语义分割

本文提出了一个名为 PointDC 的新型分割框架，通过两个阶段的处理（CMD 和 SVC），实现在不使用任何形式的注释的情况下的点云全自动无监督语义分割。该框架在 ScanNet-v2 和 S3DIS 两种数据集上均优于以往的无监督学习方法，分割性能显著提高。

Apr, 2023

基于图像级别分类和去偏置交叉模态对比学习的开放词汇三维检测

OV-3DETIC 是一个开放式词汇的 3D 点云检测器，使用基于图像的分类监督，并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表，从而使点云检测器具有实现开放式词汇检测的能力，并实现了至少 10.77% 的 mAP 绝对值改进。

Jul, 2022

CrossPoint: 自监督的跨模态对比学习，用于三维点云理解

本研究提出了一种名为 CrossPoint 的简单跨模态对比学习方法，通过自监督学习，在不需要人类标注的情况下，实现可转移的三维点云表示，通过最大化点云和相应渲染的二维图像之间的协议，实现了三维物体分类和分割等多项任务，并验证了我们的方法在提高点云理解方面的效果。

Mar, 2022

跨模态和跨域知识迁移对无标签 3D 分割

通过探索图像和点云之间的关系并设计有效的特征对齐策略，我们提出了一种新颖的方法来解决具有挑战性的跨模态和跨域自适应任务，在没有任何 3D 标签的情况下，我们的方法利用 KITTI360 和 GTA5 的知识，在 SemanticKITTI 上达到了 3D 点云语义分割的最先进性能，相比现有的无监督和弱监督基准。

Sep, 2023

自监督镜像雷达蒸馏用于自动驾驶数据

该研究提出了一种针对自动驾驶数据量身定制的自监督 3D 感知模型预训练方法，使用 superpixels 来池化 3D 点特征和 2D 像素特征，训练 3D 网络来匹配虚拟对应的 2D 像素特征并提取特征，从而实现无需任何点云或图像注释的 3D 语义分割和车辆物体检测，进行了大量的自动驾驶数据集实验以证明其有效性。

Mar, 2022