SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

Nov, 2022

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li

TL;DR本文提出了一个 CLIP-based 的模型，名为 SegCLIP，以无注释的方式实现了开放式词汇语义分割，其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征，实验结果表明，该模型在与基线的比较中，在 PASCAL VOC 2012（+1.4% mIoU）、PASCAL Context（+2.4% mIoU）和 COCO（+5.6% mIoU）上实现了相当或更高的分割精度。

Abstract

Recently, the contrastive language-image pre-training, e.g., clip, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned

clip open-vocabulary segmentation vit reconstruction loss superpixel-based kl loss

发现论文，激发创造

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

MVP-SEG: 面向开放词库语义分割的多视图提示学习

本文提出了 MVP-SEG 多视角提示学习作为一种有效的解决方案，以实现图像像素的适应性并解决开放式词汇的语义分割，通过 MVP-SEG 可以透过多个视角优化 CLIP 特征，并通过知识转移阶段使已知类别的多视角提示学习能够强大地推广到未知类别，它在几个基准测试上显著地优于以前的方法。

Apr, 2023

注重邻居：无需训练的开放词汇语义分割

借鉴了 CLIP 模型，并通过自适应 CLIP 的可视化 transformer 来强化感知，提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS)，在 8 个流行的语义分割评估中获得了最先进的性能。

Apr, 2024

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021

CLIP-VIS：适应开放词汇视频实例分割

本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络，用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器，并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块，实验结果表明该方法在各种视频实例分割数据集上表现出色。

Mar, 2024

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023