零样本语义分割的上下文感知特征生成
本文提出了一个新的任务:零样本语义分割,要求学习像素级分类器从未见过的物体类别中进行分类。ZS3Net 是本文提出的一种新架构,它将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合,以实现在测试时间处理已见和未见类别的像素分类任务。本文还通过自我训练进一步提高了性能,并在 Pascal-VOC 和 Pascal-Context 两个标准分割数据集上提出了零样本基准并设立竞争基线。此外,对于像 Pascal-Context 数据集中的复杂场景,我们通过使用图形上下文编码来完全利用来自类别分割地图的空间上下文先验知识。
Jun, 2019
本文提出一种轻量、高效的语义分割网路 —— 受上下文引导的网路(CGNet),其基于 CG 块学习局部特征和周围上下文的联合特征,并通过全局上下文进一步改善。CGNet 在所有网络阶段捕获上下文信息,特别地为了提高分割准确度而设计,并精心设计以减少参数数量和内存占用。实验表明,在等效参数数量下,所提出的 CGNet 在 Cityscapes 和 CamVid 数据集上显著优于现有的分割网络。
Nov, 2018
本文提出了一种新的基于分割标签的应对零样本图像语义分割任务的方法 ——ZegFormer,采用无类别分组任务(class-agnostic grouping task)和基于分割标签的零样本分类任务(zero-shot classification task on segments)两个子任务,引入大规模视觉语言模型(如 CLIP),在 PASCAL VOC 和 COCO-Stuff 等数据集上取得了较大的性能提升。
Dec, 2021
该研究提出使用生成对抗网络(GAN)来 “合成” 零样本类别的 CNN(卷积神经网络)特征,从而应对通用零样本学习任务中已有的数据不平衡问题。实验结果表明,该方法在多个数据集上的表现均显著优于现有方法。
Dec, 2017
本文提出了一种基于语义引导的零样本低光增强网络,用于低光图像的实时检测和分割,并在基准数据集和低光视频上进行了广泛的实验,表明该模型优于先前的最新技术水平。
Oct, 2021
本文研究了通用的零样本分割,该方法能够通过将语义空间中的跨类关系应用于视觉特征学习,从而实现新类别的全景、实例和语义分割。我们提出了一种生成模型,在无可见训练数据的情况下,为看不见的类别合成特征,进而实现了在零样本下的全景、实例和语义分割,取得了令人印象深刻的性能。
Jun, 2023
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
本文关注于零样本学习中如何挖掘物体的区分特征,提出了基于语义导向的多注意力定位模型,该模型通过发现物体最区分性的部分实现了零样本学习且不需要任何人工标注。在三个广泛使用的零样本学习基准测试上的综合实验表明,该模型及其提出的方法在很大程度上提高了现有技术水平的效果。同时,该方法对整个物体以及检测到的部分学习了协同的全局和局部特性,基于语义描述对物体进行分类。
Mar, 2019