OpenAnnotate3D:多模式三维数据开放词汇自动标注系统
本研究介绍了一种开放词汇的 3D 实例分割任务,使用零样本学习来提高模型在目标实例分割方面的泛化性,并设计了 OpenMask3D 方法,该方法使用预测的类别不可知的 3D 实例掩码来聚合每个掩码的特征,通过多视图融合和基于 CLIP 的图像嵌入来提高分割的性能。
Jun, 2023
自动驾驶中现有的感知方法无法识别训练数据中未覆盖的未知实体。开放词汇方法能够检测任何目标,但受限于用户指定的查询代表目标类别。我们提出了 AutoVoc3D,一种用于自动目标类别识别和开放式分割的框架。在 nuScenes 中的评估显示了 AutoVoc3D 生成精确的语义类别和准确的逐点分割的能力。此外,我们引入了一种新的度量方法 Text-Point 语义相似性,用于评估文本和点云之间的语义相似性,而不排除新的类别。
Jun, 2024
本文介绍了一种多模态自动标注流程,可以生成用于训练开放式类别的无标注 3D 边界框和轨迹,从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究,我们的方法可以以无监督的方式处理静态和移动的对象,并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明,我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。
Sep, 2023
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022
我们描述了一种预测开放词汇的 3D 语义体素占用图的方法,该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构,包括 2D-3D 编码器、占用预测和 3D 语言头;开发了一种三模态自监督学习算法,利用图像、语言和 LiDAR 点云三种模态来训练所提出的架构;并在几个开放词汇任务上定量展示了所提出模型的优势。
Jan, 2024
本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D),通过对齐点云、图像、语言和深度信息,设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习,实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。
Jan, 2024
OV-3DETIC 是一个开放式词汇的 3D 点云检测器,使用基于图像的分类监督,并利用伪标签和实现跨模态对比学习方法从 ImageNet1K 扩展了其单词表,从而使点云检测器具有实现开放式词汇检测的能力,并实现了至少 10.77% 的 mAP 绝对值改进。
Jul, 2022
我们提出了一种名为 Open-YOLO 3D 的快速而准确的开放词汇 3D 实例分割方法,在多视角 RGB 图像中有效利用仅 2D 对象检测进行开放词汇 3D 实例分割,并通过生成类无关的 3D 掩码并与文本提示相关联来处理此任务。我们的 Open-YOLO 3D 在两个基准测试集 ScanNet200 和 Replica 上实现了最先进的性能,在与文献中最佳方法相比速度提高了多达 16 倍。
Jun, 2024
提出了一种由 2D 开放词汇的分割模型辅助的新型三维无监督框架(UOV),通过学习未标注数据的点云表征,采用了两个阶段:首先,创新地结合了 2D 开放词汇模型的高质量文本和图像特征,提出了三模态对比预训练(TMP);其次,利用点云和图像之间的空间映射生成伪标签,实现异态知识蒸馏。并引入了近似平面交互(AFI)来解决对齐噪声和标签混淆问题。在多个相关数据集上进行了大量实验证明了 UOV 的优越性,在 nuScenes 的无需标注的点云分割任务上,实现了创纪录的 47.73% 的 mIoU,超过了之前最好模型 10.70% 的 mIoU。同时,在 nuScenes 和 SemanticKITTI 上使用 1% 的数据进行微调,取得了显著的 51.75% 和 48.14% 的 mIoU,超过了所有之前的预训练模型。
May, 2024
本文探讨了通过分治策略进行开放式词汇 3D 点云检测的方法,该方法使用图像预训练模型来学习定位各种对象,并连接文本和点云表示,以便根据提示文本对新对象类别进行分类,从而实现开放式词汇 3D 目标检测,同时在 ScanNet 和 SUN RGB-D 数据集上实现了显著的性能提升。
Apr, 2023