OpenSD: 统一的开放词汇分割和检测
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023
该论文介绍了将 CLIP 和 Segment Anything Model(SAM)集成到统一框架中的深入研究,提出了基于 SAM 的 Open-Vocabulary SAM 模型,实现了同时交互分割和识别的功能,并通过知识转移模块 SAM2CLIP 和 CLIP2SAM 进行知识转移,显著优于简单组合 SAM 和 CLIP 的基准线。此外,通过图像分类数据训练,我们的方法可以分割和识别大约 22,000 个类别。
Jan, 2024
本文提出了一种通用框架 FreeSeg,通过一次训练优化全一体网络,并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外,自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念,在多任务和各种场景中提高模型鲁棒性。大量实验结果表明,在三个分割任务上,FreeSeg 在性能和泛化方面建立了新的最先进结果,比最好的任务特定架构高出很大的幅度:在语义分割、实例分割和 COCO 上的全景分割中,未见类别的 PQ 分别达到 5.5%,17.6%和 20.1%。
Mar, 2023
我们提出了一种基于视觉语言模型的领域自适应方法,通过结合参数高效的提示微调和三元组损失训练策略,提高了开放词汇的普适性,并适应了视觉领域,改善了开放词汇分割任务中的性能。
May, 2024
我们提出了一种名为 SED 的简单的编码器 - 解码器模型用于开放词汇语义分割任务,该模型通过分层背骨和渐进融合解码器实现像素级图像分割,同时引入了类别早期拒绝机制以加快推理速度,实验证明该方法在多个数据集上的性能表现良好
Nov, 2023
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023
借鉴了 CLIP 模型,并通过自适应 CLIP 的可视化 transformer 来强化感知,提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS),在 8 个流行的语义分割评估中获得了最先进的性能。
Apr, 2024
本文通过使用 CLIP 的广义上下文先验,通过校准在词汇内和领域偏置的嵌入空间,研究开放词汇分割(OVS)。为了解决这一挑战,我们提出了一个称为 Semantic-assisted CAlibration Network(SCAN)的方法,并引入了广义语义先验以避免在已知类别上崩溃。此外,我们还提出了一种名为 Semantic-Guided IoU(SG-IoU)的新度量标准,以解决现有评估系统忽略分类间语义重复的问题。
Dec, 2023