在城市环境中的开放词汇三维物体检测

Mar, 2024

在城市环境中的开放词汇三维物体检测

Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments

Djamahl Etchegaray, Zi Huang, Tatsuya Harada, Yadan Luo

TL;DR通过开放式词汇学习、视觉语言模型和远程模拟器，我们解决了当前基于激光雷达的 3D 物体检测系统的局限性，实现了对新颖对象的高效检测和识别。

Abstract

In this work, we tackle the limitations of current LiDAR-based 3D object detection systems, which are hindered by a restricted class vocabulary and the high costs associated with annotating new object classes. Our exploration of open-vocabulary (OV) learning in urban environments aims to capture novel instances using pre-trained →

lidar-based 3d object detection open-vocabulary learning vision-language models novel object detection remote simulator

发现论文，激发创造

CoDA: 协作式创新箱发现与开放式词汇 3D 物体检测的交叉模态对齐

通过统一的框架，在有限的基础类别的条件下，本论文旨在同时解决定位和分类新颖目标的两个问题，提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块，通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。

Oct, 2023

OV-Uni3DETR: 基于循环模态传播的统一开放词汇 3D 物体检测

OV-Uni3DETR 是一种统一的开放词汇 3D 检测器，通过循环模态传播实现，具有开放词汇的 3D 检测、模态统一、场景统一的优势，并以超过 6％的性能优势超越了现有方法，在只使用 RGB 图像的情况下性能与以前的基于点云的方法相当甚至更好。

Mar, 2024

基于图像级别分类和去偏置交叉模态对比学习的开放词汇三维检测

OV-3DETIC 是一个开放式词汇的 3D 点云检测器，使用基于图像的分类监督，并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表，从而使点云检测器具有实现开放式词汇检测的能力，并实现了至少 10.77% 的 mAP 绝对值改进。

Jul, 2022

OVO: 开放词汇占用

本文提出了 Open Vocabulary Occupancy (OVO) 算法，通过知识蒸馏和像素 - 体素筛选两个关键步骤，可以对任意类别进行语义占据的预测，同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上，OVO 与有监督的方法相比具有竞争性的性能。

May, 2023

OpenSight：一种基于 LiDAR 的目标检测简单开放型词汇框架

提出了基于 LiDAR 的开放词汇检测的先进 2D-3D 建模框架 OpenSight，通过生成 2D 边框并将其与 LiDAR 点云转换为对应的 3D 边框，增强了通用对象感知能力，并通过交叉模态对齐和融合进行特定语义解码，从而在广泛应用的 3D 检测基准上建立了最先进的开放词汇性能，并有效识别感兴趣的新类别对象。

Dec, 2023

无需三维注释的开放词汇点云物体检测

本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法，该方法使用图像预训练模型来学习定位各种对象，并连接文本和点云表示，以便根据提示文本对新对象类别进行分类，从而实现开放式词汇 3D 目标检测，同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。

Apr, 2023

POP-3D：基于图像的开放词汇 3D 实占预测

我们描述了一种预测开放词汇的 3D 语义体素占用图的方法，该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构，包括 2D-3D 编码器、占用预测和 3D 语言头；开发了一种三模态自监督学习算法，利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构；并在几个开放词汇任务上定量展示了所提出模型的优势。

Jan, 2024

无需训练的自信度聚合增益对开放词汇物体检测的改进

研究着重探讨开放词汇对象检测 (OVOD) 中的问题，包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性，并提出了一种后处理方案（AggDet），通过两种先进的衡量方法来调整信心分数和恢复误判的对象，并在 OV-COCO 和 OV-LVIS 基准上取得了显著的性能提升。

Apr, 2024

OVIR-3D：在不使用 3D 数据训练的情况下进行开放词汇 3D 实例检索

通过多视角融合文本对齐的 2D 区域建议，在不使用任何 3D 数据进行训练的情况下，提出了 OVIR-3D 方法，能够根据对象实例和文本查询的特征相似性返回排名的 3D 对象实例分段。经过公共数据集和实际机器人的实验表明了该方法的有效性及其在机器人导航和操作中的潜力。

Nov, 2023

LP-OVOD：通过线性探测的开放词汇物体检测

本文提出了一种解决开放词汇物体检测（OVOD）问题的方法，该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签，并通过从前 n 个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框，实验证明我们的方法在 COCO 数据集上比现有方法表现优秀，AP_novel 达到了 40.5。

Oct, 2023