利用图像级标签扩展开放词汇图像分割规模
通过 S-Seg 模型,我们可以实现准确的像素级别标签分配,无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器,并且可以在多个测试数据集上进行良好的泛化而无需进行微调。
Jan, 2024
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出一种跨模态伪标签(cross-modal pseudo-labeling)框架,用于面向开放词汇的实例分割,通过与对象掩膜的视觉特征对齐,实现对字词语义中的新类别进行标记,从而自我训练出一个学生模型,缓解了伪掩膜中存在的噪声干扰所带来的不良影响,相比现有工作,在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。
Nov, 2021
TAG 是一种新颖的方法,用于在计算机视觉中进行无需训练、注释和指导的开放词汇语义分割,通过利用预训练模型以及来自外部数据库的类别标签检索,达到了在 PascalVOC、PascalContext 和 ADE20K 数据集上的开放词汇分割的最新成果。
Mar, 2024
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
本文提出了用于任意描述的显式开放分类的 Panoptic 分割,建立了一个没有调优或蒸馏的基线方法,然后开发了一个新的基于 Transformer 的方法 MaskCLIP,使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后,在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果,并展示了 MaskCLIP 的定制类别的定性说明。
Aug, 2022
通过提出自主引导的语义分割(Self-Seg)框架和基于 LLM 的开放式词汇评估器(LOVE),在不需要提供类别名称的情况下,实现了开放式词汇分割的最新成果,并与提供类别名称的方法相竞争,取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。
Dec, 2023
本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。
Nov, 2022
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023
使用独立的图像 - 蒙版和图像 - 文本对,利用不配对的蒙版 - 文本监督,提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg),通过利用自信的蒙版预测和文本描述中的实体,在 CLIP 嵌入空间中关联一组二进制蒙版和实体,采用大型视觉 - 语言模型 (LVLM) 对文本进行精炼,设计多尺度集成以稳定蒙版和实体之间的匹配,相较于仅使用文本进行弱监督的方法,在 ADE20K 数据集上实现了 15.5% mIoU 的显著改进,在具有挑战性的 PASCAL Context-459 数据集上甚至超过了完全监督的方法。
Feb, 2024