无需口罩的 OVIS:无需手动标注口罩的开放词汇实例分割
本文提出一种跨模态伪标签(cross-modal pseudo-labeling)框架,用于面向开放词汇的实例分割,通过与对象掩膜的视觉特征对齐,实现对字词语义中的新类别进行标记,从而自我训练出一个学生模型,缓解了伪掩膜中存在的噪声干扰所带来的不良影响,相比现有工作,在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。
Nov, 2021
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023
使用独立的图像 - 蒙版和图像 - 文本对,利用不配对的蒙版 - 文本监督,提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg),通过利用自信的蒙版预测和文本描述中的实体,在 CLIP 嵌入空间中关联一组二进制蒙版和实体,采用大型视觉 - 语言模型 (LVLM) 对文本进行精炼,设计多尺度集成以稳定蒙版和实体之间的匹配,相较于仅使用文本进行弱监督的方法,在 ADE20K 数据集上实现了 15.5% mIoU 的显著改进,在具有挑战性的 PASCAL Context-459 数据集上甚至超过了完全监督的方法。
Feb, 2024
通过大规模视觉 - 语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play 开放词汇语义分割(PnP-OVSS),并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。
Nov, 2023
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。
Mar, 2023
本文提出了一种基于 Caption Grounding and Generation 框架的简单而有效的方法,借助图像标题中的目标名词发现新类别的实例,通过与 Mask Transformer 基线的结合和 caption generation head 的生成来提高实例级别开放词汇分割的性能,并在 COCO 数据集的两个设置下进行了广泛实验,取得了显著的效果。
Jan, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
我们收集了一个大规模的被遮挡的视频实例分割数据集,即检测,在遮挡场景中同时分割和跟踪实例,实验表明,现有的视频理解系统无法理解这些被遮挡的实例,我们还提出了一个简单的插件模块,用于补充遮挡引起的缺失对象线索,建立在 MaskTrack R-CNN 和 SipMask 上,在 OVIS 数据集上取得了显着的 AP 提升。
Feb, 2021