统一开放词汇密集视觉预测
本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D),通过对齐点云、图像、语言和深度信息,设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习,实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。
Jan, 2024
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
本文旨在进行无遮挡多类目标检测的研究,探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式,研究者通过采用大型语言模型来生成信息化的语言描述,基于图像样例提供了视觉聚合器,并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明,本文提出的基于文本的分类器优于之前 OVOD 方案,基于视觉的分类器表现与文本分类器表现相当,而使用多模态分类器比任一模态更好。
Jun, 2023
该研究提出了一种基于场景图的发现网络(SGDN),利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性,并且能够解决以往方法无法处理的 OV 场景图生成任务。
Jul, 2023
本文提出了 Open Vocabulary Occupancy (OVO) 算法,通过知识蒸馏和像素 - 体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上,OVO 与有监督的方法相比具有竞争性的性能。
May, 2023
该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
Aug, 2023
开放词汇检测(OVD)是一种新的目标检测范式,旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种 OVD 方法,并通过实验验证了这些方法在不同设置下的性能。其中,DRR 方法在 OVD-COCO 基准测试中取得了最佳表现,并相对于先前最先进水平获得了 2.8 的 AP$_{50}$ 绝对增益。
Sep, 2023
提出了一种由 2D 开放词汇的分割模型辅助的新型三维无监督框架(UOV),通过学习未标注数据的点云表征,采用了两个阶段:首先,创新地结合了 2D 开放词汇模型的高质量文本和图像特征,提出了三模态对比预训练(TMP);其次,利用点云和图像之间的空间映射生成伪标签,实现异态知识蒸馏。并引入了近似平面交互(AFI)来解决对齐噪声和标签混淆问题。在多个相关数据集上进行了大量实验证明了 UOV 的优越性,在 nuScenes 的无需标注的点云分割任务上,实现了创纪录的 47.73% 的 mIoU,超过了之前最好模型 10.70% 的 mIoU。同时,在 nuScenes 和 SemanticKITTI 上使用 1% 的数据进行微调,取得了显著的 51.75% 和 48.14% 的 mIoU,超过了所有之前的预训练模型。
May, 2024
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023