探索简化开放词汇语义分割
本文提出了 OpenSeg 模型,通过学习像素的可视化分组和视觉 - 语义对齐,利用可扩展的图像级监督生成分割掩码,从而实现对图像的开放词汇的分割与组织,相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。
Dec, 2021
通过提出自主引导的语义分割(Self-Seg)框架和基于 LLM 的开放式词汇评估器(LOVE),在不需要提供类别名称的情况下,实现了开放式词汇分割的最新成果,并与提供类别名称的方法相竞争,取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。
Dec, 2023
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。
Jan, 2023
TAG 是一种新颖的方法,用于在计算机视觉中进行无需训练、注释和指导的开放词汇语义分割,通过利用预训练模型以及来自外部数据库的类别标签检索,达到了在 PascalVOC、PascalContext 和 ADE20K 数据集上的开放词汇分割的最新成果。
Mar, 2024
LSeg 是一种用于语言驱动语义图像分割的新模型,使用文本编码器计算输入标签的嵌入,和基于 transformer 的图像编码器计算输入图像的嵌入,实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入,该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器,实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练,且具有高度竞争的零 - shot 性能。
Jan, 2022
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了 SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。
Jun, 2024
通过大规模视觉 - 语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play 开放词汇语义分割(PnP-OVSS),并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。
Nov, 2023
本文提出一种跨模态伪标签(cross-modal pseudo-labeling)框架,用于面向开放词汇的实例分割,通过与对象掩膜的视觉特征对齐,实现对字词语义中的新类别进行标记,从而自我训练出一个学生模型,缓解了伪掩膜中存在的噪声干扰所带来的不良影响,相比现有工作,在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。
Nov, 2021