解耦单次网络的零样本语义分割
本文提出了一种新的基于分割标签的应对零样本图像语义分割任务的方法 ——ZegFormer,采用无类别分组任务(class-agnostic grouping task)和基于分割标签的零样本分类任务(zero-shot classification task on segments)两个子任务,引入大规模视觉语言模型(如 CLIP),在 PASCAL VOC 和 COCO-Stuff 等数据集上取得了较大的性能提升。
Dec, 2021
本文提出了一种新颖的深度神经网络架构,用于使用异构注释进行半监督语义分割,从而实现了分类和分割的解耦。该算法利用训练数据中的图像级和像素级类标签分别学习分类和分割网络,有效地减少了限制搜索空间并展现出优异的性能表现。
Jun, 2015
本文提出了一个新的任务:零样本语义分割,要求学习像素级分类器从未见过的物体类别中进行分类。ZS3Net 是本文提出的一种新架构,它将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合,以实现在测试时间处理已见和未见类别的像素分类任务。本文还通过自我训练进一步提高了性能,并在 Pascal-VOC 和 Pascal-Context 两个标准分割数据集上提出了零样本基准并设立竞争基线。此外,对于像 Pascal-Context 数据集中的复杂场景,我们通过使用图形上下文编码来完全利用来自类别分割地图的空间上下文先验知识。
Jun, 2019
提出了一种称为 joint embeddings for zero-shot learning 的方法,通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息,并利用辅助字幕来提高图像和文本表示之间的对齐,从而在多个基准数据集上评估了该方法,在标准的(aPY 上 + 1.6%,FLO 上 + 2.6%)和常规的(AWA2 上 + 2.1%,CUB 上 + 2.2%)零 - shot 识别中提高了现有最先进方法的性能。
Jan, 2022
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了 SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。
Jun, 2024
通过基于训练的视觉 - 语言模型,CLIP,使用变换器解码器将视觉特征与类别嵌入对齐,生成语义分割掩码,本研究提出一种语言驱动的视觉共识(LDVC)方法,通过利用类别嵌入作为锚点,引导视觉特征朝向类别嵌入,通过引入路由注意力来增强同一对象内的语义一致性,并配备视觉 - 语言提示策略,显著提升了未见类别的分割模型的泛化能力,实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。
Mar, 2024
本文研究探索在 off-the-shelf 扩散模型的基础上,如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法,使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测,并结合了生成模型和语言模型。
Nov, 2022
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
本文提出了一种上下文感知特征生成方法,命名为 CaGNet,通过引入上下文模块来捕获像素级别的上下文信息,并从语义词嵌入中生成更丰富和上下文感知的特征,从而实现了零样本语义分割任务中的最先进结果。
Aug, 2020