OpenSight:一种基于 LiDAR 的目标检测简单开放型词汇框架
自动驾驶中现有的感知方法无法识别训练数据中未覆盖的未知实体。开放词汇方法能够检测任何目标,但受限于用户指定的查询代表目标类别。我们提出了 AutoVoc3D,一种用于自动目标类别识别和开放式分割的框架。在 nuScenes 中的评估显示了 AutoVoc3D 生成精确的语义类别和准确的逐点分割的能力。此外,我们引入了一种新的度量方法 Text-Point 语义相似性,用于评估文本和点云之间的语义相似性,而不排除新的类别。
Jun, 2024
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
本研究提出了一种使用单目摄像头和 LiDAR 数据结合的机器学习技术,通过以国际排名领先的二维物体探测器生成的锥体区域来分割 LiDAR 点云,从而检测运动平台周围的车辆的 3D 边界框参数, 最终验证集准确率达到 87.1%。
May, 2021
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注 3D 边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明,我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。
Sep, 2023
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。
Apr, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
Object2Scene 和 L3Det 是用于开放词汇 3D 物体检测的首个方法,通过引入大规模的 3D 物体数据集,将物体插入到 3D 场景中来丰富 3D 场景数据集的词汇,并在不同数据集的 3D 对象之间缓解领域差异,并证实了其在 OV-ScanNet-200 基准测试中的有效性。
Sep, 2023
使用 OpenScene 和 zero-shot 方法,借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中,以达到不确定性的训练和开放词汇量的查询场景的目的。
Nov, 2022
提升单目深度学习算法中对于三维场景物体检测的表现,通过伪 LIDAR 点云实现与 LIDAR 算法的融合,最终在 KITTI 基准测试中取得了最优结果。
Mar, 2019