自助学习多模态预训练在 3D 目标检测中的应用

Jun, 2024

自助学习多模态预训练在 3D 目标检测中的应用

Shelf-Supervised Multi-Modal Pre-Training for 3D Object Detection

Mehar Khurana, Neehar Peri, Deva Ramanan, James Hays

TL;DR通过使用与图像相关的 shelf-supervision 模型对配对的 RGB 和 LiDAR 数据进行无监督预训练，我们提出了一种能够生成零样本 3D 边界框的点云表示方法，这种方法在半监督检测中能够显著提高检测准确性，尤其适用于 LiDAR-only 和多模态 (RGB + LiDAR) 检测。我们在 nuScenes 和 WOD 上展示了我们方法的有效性，并在有限数据环境中明显改进了之前的工作。

Abstract

State-of-the-art 3d object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data

3d object detectors self-supervised learning point clouds image-based shelf-supervision semi-supervised detection accuracy

发现论文，激发创造

任意点云的自监督 3D 特征预训练

该研究提出了一种可用于 3D 数据的简单自监督预训练方法，在目标检测、语义分割和物体分类等方面取得了最先进的结果并提高了少样本类别的性能。

Jan, 2021

视角到标签：自监督三维物体检测的多视角一致性

提出了一种基于多视角和弱标签的纯 RGB 序列的自监督 3D 物体检测方法，其在 KITTI 3D 数据集上的性能与使用激光雷达或立体图像的最先进的自监督方法相当。

May, 2023

自监督镜像雷达蒸馏用于自动驾驶数据

该研究提出了一种针对自动驾驶数据量身定制的自监督 3D 感知模型预训练方法，使用 superpixels 来池化 3D 点特征和 2D 像素特征，训练 3D 网络来匹配虚拟对应的 2D 像素特征并提取特征，从而实现无需任何点云或图像注释的 3D 语义分割和车辆物体检测，进行了大量的自动驾驶数据集实验以证明其有效性。

Mar, 2022

自监督激光雷达场景流三维物体检测

本文利用自监督多帧流表示和单帧三维检测假设之间的关系，将自监督训练策略与监督三维检测结合，提出一种利用场景流估计的自监督训练方法来增强三维检测性能的技术。实验表明，所提出的自监督预训练显著提高了三维检测性能。

May, 2022

基于点云的弱监督三维物体检测

本文提出 VS3D，一个从点云中弱监督学习的 3D 目标检测框架，其中引入了无监督的 3D proposal 模块和跨模态知识蒸馏策略，在 KITTI 数据集上取得了优异的性能。

Jul, 2020

使用三维先验增强二维表示学习

通过在训练过程中直接强制将强大的三维结构先验性知识融入模型，我们提出了一种新的方法来加强现有的自监督学习方法，并通过一系列数据集实验证明了我们的三维感知表示比传统的自监督基线更加稳健。

Jun, 2024

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023

基于占据估计的汽车激光雷达自我监督

本论文提出一种基于自监督学习的点云深度感知模型预训练方法，通过表面重建预训练任务和基于潜在向量的感知头来抓取表面信息的语义片段并提高对象检测和场景语义分割性能。

Dec, 2022

多层次视觉引导的弱监督 3D 目标检测

对于弱监督的三维物体检测任务，本文提出了一种框架来研究如何在无需任何三维标签的情况下利用二维和三维领域之间的约束，通过三种视角的视觉数据建立二维和三维领域之间的关联。实验证明，在无需使用任何三维标签的情况下，该方法在 KITTI 数据集上取得了与最先进方法相媲美的性能。

Dec, 2023

通过超参数调整改进 ONCE 基准

这项研究聚焦于半监督学习方法在点云数据中的评估，以应对自动驾驶、机器人技术和增强现实等领域对 3D 物体检测的不断增长需求。结果表明，单纯的超参数调整与监督模型的结合能够在 ONCE 数据集上达到最先进的性能，而未标注数据对模型改进的贡献似乎相对较少。

Nov, 2023