无需口罩的OVIS:无需手动标注口罩的开放词汇实例分割
本文提出一种跨模态伪标签(cross-modal pseudo-labeling)框架,用于面向开放词汇的实例分割,通过与对象掩膜的视觉特征对齐,实现对字词语义中的新类别进行标记,从而自我训练出一个学生模型,缓解了伪掩膜中存在的噪声干扰所带来的不良影响,相比现有工作,在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。
Nov, 2021
本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上,我们的方法在新颖类别上取得了36.6的AP50表现,绝对值超过了以前的最佳性能。对于LVIS,我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP,总体提高3.4。
Jul, 2022
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出了一种基于Caption Grounding and Generation框架的简单而有效的方法,借助图像标题中的目标名词发现新类别的实例,通过与Mask Transformer基线的结合和caption generation head的生成来提高实例级别开放词汇分割的性能,并在COCO数据集的两个设置下进行了广泛实验,取得了显著的效果。
Jan, 2023
本文提出一种基于Transformer的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像-文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零-shot迁移效果。
Jan, 2023
本研究提出和研究了一项新的计算机视觉任务,名为OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的VLM预测其对应的类别,其次通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。
May, 2023
本文综述了开放式词汇学习的最新动态,强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较,并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现,开放式词汇学习方法在实践中更具广泛性、有效性和实用性,未来仍有许多探索余地。
Jun, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新OVD和OVS发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉-语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义/实例/全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
使用独立的图像-蒙版和图像-文本对,利用不配对的蒙版-文本监督,提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg),通过利用自信的蒙版预测和文本描述中的实体,在CLIP嵌入空间中关联一组二进制蒙版和实体,采用大型视觉-语言模型 (LVLM) 对文本进行精炼,设计多尺度集成以稳定蒙版和实体之间的匹配,相较于仅使用文本进行弱监督的方法,在ADE20K数据集上实现了15.5% mIoU的显著改进,在具有挑战性的PASCAL Context-459数据集上甚至超过了完全监督的方法。
Feb, 2024
通过利用较小、训练成本更低的模型,本论文的核心策略旨在实现与基于大型视觉语言基础模型的先前开放词汇分割工作相媲美甚至更好的性能,以解决开放词汇分割(OVS)方法面临的高计算开销问题,并在各种 OVS 基准测试中展示了我们在分割准确性和计算成本之间卓越的平衡。
Apr, 2024