在城市环境中的开放词汇三维物体检测
通过统一的框架,在有限的基础类别的条件下,本论文旨在同时解决定位和分类新颖目标的两个问题,提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块,通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。
Oct, 2023
OV-Uni3DETR 是一种统一的开放词汇 3D 检测器,通过循环模态传播实现,具有开放词汇的 3D 检测、模态统一、场景统一的优势,并以超过 6%的性能优势超越了现有方法,在只使用 RGB 图像的情况下性能与以前的基于点云的方法相当甚至更好。
Mar, 2024
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
本文提出了 Open Vocabulary Occupancy (OVO) 算法,通过知识蒸馏和像素 - 体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上,OVO 与有监督的方法相比具有竞争性的性能。
May, 2023
提出了基于 LiDAR 的开放词汇检测的先进 2D-3D 建模框架 OpenSight,通过生成 2D 边框并将其与 LiDAR 点云转换为对应的 3D 边框,增强了通用对象感知能力,并通过交叉模态对齐和融合进行特定语义解码,从而在广泛应用的 3D 检测基准上建立了最先进的开放词汇性能,并有效识别感兴趣的新类别对象。
Dec, 2023
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。
Apr, 2023
我们描述了一种预测开放词汇的 3D 语义体素占用图的方法,该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构,包括 2D-3D 编码器、占用预测和 3D 语言头;开发了一种三模态自监督学习算法,利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构;并在几个开放词汇任务上定量展示了所提出模型的优势。
Jan, 2024
研究着重探讨开放词汇对象检测 (OVOD) 中的问题,包括对新类别的检测性能不佳以及候选区域和对象分类阶段的局限性,并提出了一种后处理方案(AggDet),通过两种先进的衡量方法来调整信心分数和恢复误判的对象,并在 OV-COCO 和 OV-LVIS 基准上取得了显著的性能提升。
Apr, 2024
通过多视角融合文本对齐的 2D 区域建议,在不使用任何 3D 数据进行训练的情况下,提出了 OVIR-3D 方法,能够根据对象实例和文本查询的特征相似性返回排名的 3D 对象实例分段。经过公共数据集和实际机器人的实验表明了该方法的有效性及其在机器人导航和操作中的潜力。
Nov, 2023
本文提出了一种解决开放词汇物体检测(OVOD)问题的方法,该方法使用共同的文本图像嵌入来为边界提案分配最接近的文本标签,并通过从前 n 个相关区域提案中检索伪标签来训练一个分类器以丢弃低质量的边界框,实验证明我们的方法在 COCO 数据集上比现有方法表现优秀,AP_novel 达到了 40.5。
Oct, 2023