MVP-SEG: 面向开放词库语义分割的多视图提示学习

Apr, 2023

MVP-SEG: 面向开放词库语义分割的多视图提示学习

MVP-SEG: Multi-View Prompt Learning for Open-Vocabulary Semantic Segmentation

Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang...

TL;DR本文提出了 MVP-SEG 多视角提示学习作为一种有效的解决方案，以实现图像像素的适应性并解决开放式词汇的语义分割，通过 MVP-SEG 可以透过多个视角优化 CLIP 特征，并通过知识转移阶段使已知类别的多视角提示学习能够强大地推广到未知类别，它在几个基准测试上显著地优于以前的方法。

Abstract

clip (Contrastive Language-Image Pretraining) is well-developed for open-vocabulary zero-shot image-level recognition, while its applications in pixel-level tasks are less investigated, where most efforts directly adopt

clip image-pixel adaptation semantic segmentation multi-view prompt learning knowledge transfer

发现论文，激发创造

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

本文提出了一个 CLIP-based 的模型，名为 SegCLIP，以无注释的方式实现了开放式词汇语义分割，其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征，实验结果表明，该模型在与基线的比较中，在 PASCAL VOC 2012（+1.4% mIoU）、PASCAL Context（+2.4% mIoU）和 COCO（+5.6% mIoU）上实现了相当或更高的分割精度。

Nov, 2022

医学视觉引导（MVP）：一种用于多功能和高质量医学图像分割的统一框架

准确分割病变区域对于各种疾病的临床诊断和治疗至关重要。本研究提出了一种新颖的医学视觉提示 (MVP) 框架，借鉴了自然语言处理 (NLP) 的预训练和提示概念，通过整合 SPGP、IEGP 和 AAGP 三个关键组件，使得分割网络更好地学习形状提示信息并实现不同任务之间的相互学习，实验结果表明此方法在各种具有挑战性的医学图像任务中表现优越。

Apr, 2024

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

PartSeg: 通过部位感知提示学习的少样本部分分割

使用 CLIP 等强大的预训练图像语言模型在很少标记样本的情况下，开发了一种名为 PartSeg 的新方法，用于基于多模态学习的少样本部件分割任务，该方法利用部件感知提示学习生成部件特定的提示，从而使 CLIP 模型更好地理解 “部件” 的概念并充分利用其文本空间，实验结果在 PartImageNet 和 Pascal_Part 数据集上证明了该方法的最新性能。

Aug, 2023

TagCLIP：一种增强无需训练的 CLIP 开放词汇多标签分类的本地到全局框架

通过局部到全局的框架，我们提出了一种扩展了 CLIP 的方法来提高多标签分类性能，并通过生成的标签在弱监督语义分割任务中取得了显著的性能提升。

Dec, 2023

UMG-CLIP: 一个统一的多粒度视觉通才用于开放世界理解

该研究扩展了 CLIP 模型的多粒度对齐，在多个层次上构建了伪注释数据集，并开发了名为 UMG-CLIP 的统一多粒度学习框架，通过参数高效调整，实现了在各种图像理解基准测试中超越当前广泛使用的 CLIP 模型，包括开放世界识别、检索、语义分割和全景分割任务，具有最先进的性能。

Jan, 2024