自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

ICCVSep, 2023

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

Unsupervised 3D Perception with 2D Vision-Language Distillation for Autonomous Driving

Mahyar Najibi, Jingwei Ji, Yin Zhou, Charles R. Qi, Xinchen Yan...

TL;DR本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Abstract

Closed-set 3d perception models trained on only a pre-defined set of object categories can be inadequate for safety critical applications such as autonomous driving where new object types can be encountered after

3d perception models autonomous driving multi-modal auto labeling pipeline amodal 3d bounding boxes open-set categories

发现论文，激发创造

自主驾驶中基于运动的无监督感知与预测

本文提出一种使用自学生成流技术的框架，自动学习行驶中的自由运动的物体，以替代在自主驾驶系统中昂贵的人工标注，实现更广泛、准确、自主的交通参与者识别和动作预测。

Oct, 2022

视角到标签：自监督三维物体检测的多视角一致性

提出了一种基于多视角和弱标签的纯 RGB 序列的自监督 3D 物体检测方法，其在 KITTI 3D 数据集上的性能与使用激光雷达或立体图像的最先进的自监督方法相当。

May, 2023

自动驾驶的 3D 无监督学习：通过提炼 2D 开放词汇分割模型实现

提出了一种由 2D 开放词汇的分割模型辅助的新型三维无监督框架（UOV），通过学习未标注数据的点云表征，采用了两个阶段：首先，创新地结合了 2D 开放词汇模型的高质量文本和图像特征，提出了三模态对比预训练（TMP）；其次，利用点云和图像之间的空间映射生成伪标签，实现异态知识蒸馏。并引入了近似平面交互（AFI）来解决对齐噪声和标签混淆问题。在多个相关数据集上进行了大量实验证明了 UOV 的优越性，在 nuScenes 的无需标注的点云分割任务上，实现了创纪录的 47.73% 的 mIoU，超过了之前最好模型 10.70% 的 mIoU。同时，在 nuScenes 和 SemanticKITTI 上使用 1% 的数据进行微调，取得了显著的 51.75% 和 48.14% 的 mIoU，超过了所有之前的预训练模型。

May, 2024

自监督镜像雷达蒸馏用于自动驾驶数据

该研究提出了一种针对自动驾驶数据量身定制的自监督 3D 感知模型预训练方法，使用 superpixels 来池化 3D 点特征和 2D 像素特征，训练 3D 网络来匹配虚拟对应的 2D 像素特征并提取特征，从而实现无需任何点云或图像注释的 3D 语义分割和车辆物体检测，进行了大量的自动驾驶数据集实验以证明其有效性。

Mar, 2022

自助学习多模态预训练在 3D 目标检测中的应用

通过使用与图像相关的 shelf-supervision 模型对配对的 RGB 和 LiDAR 数据进行无监督预训练，我们提出了一种能够生成零样本 3D 边界框的点云表示方法，这种方法在半监督检测中能够显著提高检测准确性，尤其适用于 LiDAR-only 和多模态 (RGB + LiDAR) 检测。我们在 nuScenes 和 WOD 上展示了我们方法的有效性，并在有限数据环境中明显改进了之前的工作。

Jun, 2024

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

自动驾驶中图像表征向点云的蒸馏重新审视

自监督图像网络在解决复杂的 2D 任务（如语义分割、目标发现）时非常高效且几乎没有下游监督要求，然而，当前基于激光雷达数据的自监督 3D 网络表现不佳，因此有几种方法提议将高质量的自监督 2D 特征转移到 3D 网络中，最近在自动驾驶数据上进行的尝试显示了有希望的结果，然而，这些转移后的特征与完全监督的特征之间仍然存在差距，本文重新审视了 2D 到 3D 转移，首先，针对语义分割，我们提出了一种简单的方法，相对于之前的 3D 转移方法实现了显著的提高，其次，我们证明了在高容量的 3D 网络中进行转移对于获得高质量的 3D 特征至关重要，这实际上使我们能够显著缩小无监督转移的 3D 特征与完全监督特征之间的差距，最后，我们表明我们所得到的高质量转移表示还可以用于开放词汇的分割和背景 / 前景发现。

Oct, 2023

跨模态和跨域知识迁移对无标签 3D 分割

通过探索图像和点云之间的关系并设计有效的特征对齐策略，我们提出了一种新颖的方法来解决具有挑战性的跨模态和跨域自适应任务，在没有任何 3D 标签的情况下，我们的方法利用 KITTI360 和 GTA5 的知识，在 SemanticKITTI 上达到了 3D 点云语义分割的最先进性能，相比现有的无监督和弱监督基准。

Sep, 2023

多层次视觉引导的弱监督 3D 目标检测

对于弱监督的三维物体检测任务，本文提出了一种框架来研究如何在无需任何三维标签的情况下利用二维和三维领域之间的约束，通过三种视角的视觉数据建立二维和三维领域之间的关联。实验证明，在无需使用任何三维标签的情况下，该方法在 KITTI 数据集上取得了与最先进方法相媲美的性能。

Dec, 2023

基于占据估计的汽车激光雷达自我监督

本论文提出一种基于自监督学习的点云深度感知模型预训练方法，通过表面重建预训练任务和基于潜在向量的感知头来抓取表面信息的语义片段并提高对象检测和场景语义分割性能。

Dec, 2022