零样本无监督转移实例分割
我们提出了一种新的零样本目标实例分割任务,并提出了一种用于解决此挑战的方法,该方法包括零样本检测器,语义掩模头,背景感知 RPN 和同步背景策略,并在基于 MS-COCO 数据集的新基准测试中取得了良好的性能,这将成为零样本目标实例分割领域未来研究的坚实基础。
Apr, 2021
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
本文提出了一种基于无监督零样本形式的图像到图像的翻译问题,通过引入对抗训练机制,使用 ZstGAN 框架学习建模每个领域,然后使用共享编码器将域不变特征解缠,进行图像生成,并在 CUB 和 FLO 数据集上进行了广泛的实验,结果表明该方法对于 UZSIT 任务的有效性,并且在 CUB 和 FLO 上,ZstGAN 相较于现有的零样本学习方法有显著的精度改进。
Jun, 2019
我们提出了一种名为 U2Seg 的无监督通用分割模型,能够使用统一框架执行多种图像分割任务:实例分割、语义分割和全景分割。该方法通过利用自监督模型生成伪语义标签,并在此基础上进行自我训练,达到了与专门设计的方法相比显著的性能提升,同时也为无监督全景分割建立了一个新的基准。此外,在少样本情况下,即只有 1% 的 COCO 标签时,U2Seg 也是强大的预训练模型,比 CutLER 在 APmask 上提升了 5.0 个点。我们希望我们简单而有效的方法能够激发更多关于无监督通用图像分割的研究。
Dec, 2023
本文提出了一种新的基于分割标签的应对零样本图像语义分割任务的方法 ——ZegFormer,采用无类别分组任务(class-agnostic grouping task)和基于分割标签的零样本分类任务(zero-shot classification task on segments)两个子任务,引入大规模视觉语言模型(如 CLIP),在 PASCAL VOC 和 COCO-Stuff 等数据集上取得了较大的性能提升。
Dec, 2021
本文提出了一种将语言 - 图像预训练模型(如 CLIP)的检索能力与无监督图像分割方法结合的方法,称为 Retrieve and Co-segment(ReCo)。该方法可构建语义分割模型,无需像素级别的标注,具有词汇表中概念名称的预测方便性和零样本转移能力,并能生成少见对象的专用分割模型。
Jun, 2022
利用稳定扩散模型中的自注意力层以及基于测量注意力图之间的 KL 散度的简单而有效的迭代合并过程,我们提出了一种无需训练或语言依赖性,能够从任何图像中提取质量分割的方法。在 COCO-Stuff-27 上,我们的方法在像素准确率和平均 IoU 上都比之前最先进的无监督零样本方法提高了 26% 和 17%。
Aug, 2023
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了 SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。
Jun, 2024
本文提出了一种通用的半监督语义分割框架,旨在在各种应用领域实现更低的注释和部署成本,并通过像素感知熵正则化的特征对齐目标来最小化有监督以及无监督损失,以实现在多个领域中都能使用单一模型,利用少量标记实现性能提升,同时可以处理不同领域的标签空间不同的问题。
Nov, 2018
本文提出了一个新的任务:零样本语义分割,要求学习像素级分类器从未见过的物体类别中进行分类。ZS3Net 是本文提出的一种新架构,它将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合,以实现在测试时间处理已见和未见类别的像素分类任务。本文还通过自我训练进一步提高了性能,并在 Pascal-VOC 和 Pascal-Context 两个标准分割数据集上提出了零样本基准并设立竞争基线。此外,对于像 Pascal-Context 数据集中的复杂场景,我们通过使用图形上下文编码来完全利用来自类别分割地图的空间上下文先验知识。
Jun, 2019