基于语言驱动的多样化开放集 3D 物体检测的主动学习

Apr, 2024

基于语言驱动的多样化开放集 3D 物体检测的主动学习

Language-Driven Active Learning for Diverse Open-Set 3D Object Detection

Ross Greer, Bjørk Antoniussen, Andreas Møgelmose, Mohan Trivedi

TL;DR提出了 VisLED 算法，一种基于语言驱动的主动学习框架，用于多样的开放式 3D 物体检测，通过查询多样且有信息量的样本数据，提高模型对少数类别或新颖物体的检测能力。在 nuScenes 数据集上的实验证明，相比于随机抽样和熵查询方法，VisLED 算法在提高目标检测性能方面表现出色，并且尽管熵查询方法在模型优化方面具有竞争力，但 VisLED 算法仍然具有相当的性能，突显了 VisLED 算法在自动驾驶场景中改进目标检测的潜力。

Abstract

object detection is crucial for ensuring safe autonomous driving. However, data-driven approaches face challenges when encountering minority or novel objects in the 3D driving scene. In this paper, we propose

object detection autonomous driving active learning 3d object detection visled

发现论文，激发创造

大数据驱动的安全自动驾驶中使用主动学习的原因、时间和方法：一项实证研究

在自动驾驶数据集中，采用主动学习策略可以解决数据不平衡、冗余和高维数据的挑战。我们展示了使用信息熵查询来选择信息丰富的样本，旨在降低注释成本和提高模型性能的有效性。我们在 nuScenes 数据集上使用 BEVFusion 模型进行了实验，将主动学习与随机抽样进行比较，并证明信息熵查询在大多数案例中表现优异。该方法在减少多数类和少数类之间的性能差距方面特别有效。类别特定的分析揭示了对有限数据预算进行注释资源的有效配置，强调选择多样性和信息丰富的数据用于模型训练的重要性。我们的发现表明，在资源受限的环境中，信息熵查询是选择增强模型学习的数据的一种有前途的策略。

Jan, 2024

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023

激光雷达引导半监督主动学习的单目三维物体检测

本文提出了一种新颖的半监督主动学习 (SSAL) 框架，用于配备了激光雷达的单目 3D 物体检测，利用了模型开发过程中所收集的所有数据的多模态。通过利用激光雷达来指导单目 3D 检测器的数据选择和训练，不在推理阶段引入任何开销，并采用半监督学习中的激光雷达教师，单目学生交叉模态框架，用于从未标记数据中蒸馏信息作为伪标签，以处理传播噪声等问题。文中也给出了用于选择需标记样本的传感器一致性基础选择评分的解决方案，同时也符合训练目标。本文在 KITTI 和 Waymo 数据集上广泛实验，验证了所提出方法的有效性。具体来说，所提出的选择策略在成本节省方面始终优于现有主动学习基线，在标签成本上节约了高达 17% 的成本；训练策略在 KITTI 3D 和 BEV 单目物体检测官方基准中获得了最佳成绩，将 BEV 平均精度提高了 2.02。

Jul, 2023

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

自主驾驶点云中基于语言的 3D 物体检测

本文提出了一种新的多模态视觉定位任务，称为 LiDAR Grounding，并通过设计一种名为 MSSG 的多模态单次定位方法来实现，通过跨模态学习来提高定位精度和效率。

May, 2023

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

用深度主动学习高效训练 LiDAR 三维物体检测器

本研究提出了一种主动学习的方法，通过使用 RGB 图像生成的 2D 区域提案来减少目标搜索空间并加快学习过程，从而训练一个具有最少标记训练数据的 LiDAR 3D 目标检测器。实验结果表明，该方法在不同的不确定性估计和查询功能下都能正常工作，并可以节省多达 60% 的标注工作量，同时达到相同的网络性能。

Jan, 2019

在城市环境中的开放词汇三维物体检测

通过开放式词汇学习、视觉语言模型和远程模拟器，我们解决了当前基于激光雷达的 3D 物体检测系统的局限性，实现了对新颖对象的高效检测和识别。

Mar, 2024

激光雷达点的自动词汇分割

自动驾驶中现有的感知方法无法识别训练数据中未覆盖的未知实体。开放词汇方法能够检测任何目标，但受限于用户指定的查询代表目标类别。我们提出了 AutoVoc3D，一种用于自动目标类别识别和开放式分割的框架。在 nuScenes 中的评估显示了 AutoVoc3D 生成精确的语义类别和准确的逐点分割的能力。此外，我们引入了一种新的度量方法 Text-Point 语义相似性，用于评估文本和点云之间的语义相似性，而不排除新的类别。

Jun, 2024

从泛化视角探索主动式三维物体检测

研究提出了一种基于 Crb 框架的主动学习方法，使用新颖的标签简洁性、特征代表性和几何平衡构成的三个标准来筛选信息量最高的未标注的点云数据，从而提高基于 LiDAR 的三维目标检测的效率和性能。

Jan, 2023