无需调整的普遍监督语义分割

May, 2024

Tuning-free Universally-Supervised Semantic Segmentation

Xiaobo Yang, Xiaojin Gong

TL;DR本研究提出了一种无需调参的基于 CLIP 的语义分割框架，可以普遍适用于各种类型的监督。通过利用 CLIP 的零样本分类能力生成伪标签或进行开放词汇量的分割，我们解决了蒙版与 CLIP 文本嵌入之间的偏差问题，提出了一种判别偏差对齐的 CLIP 方法以获得更好的性能。我们构建了一个全局 - 局部一致性的分类器来对 SAM 蒙版进行分类，揭示了 DBA-CLIP 产生的高质量嵌入的内在结构，并展示了对噪声伪标签的鲁棒性。大量实验证实了我们方法的效率和有效性，并在各种数据集和监督类型上取得了最先进或具有竞争力的性能。

Abstract

This work presents a tuning-free semantic segmentation framework based on classifying sam masks by clip, which is universally applicable t

tuning-free semantic segmentation clip sam masks discrimination-bias aligned clip global-local consistent classifier

发现论文，激发创造

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

ClipSAM：CLIP 与 SAM 的零样本异常分割合作

CLIP 和 SAM 协作的 ClipSAM 框架可用于零样本异常分割任务，通过结合 CLIP 的语义理解和 SAM 的细分结果优化，获得最佳的分割性能。

Jan, 2024

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

PosSAM: 全景开放词汇片段检测

提出了一种开放词汇的全景分割模型，通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块（LDP），克服了 SAM 的局限性，并引入了面向掩膜的选择集成算法（MASE）来自适应地提高生成掩膜的质量，从而在多个数据集上展示了很强的泛化性能，并且在开放词汇全景分割方法方面取得了显著的改进。

Mar, 2024

SaLIP 与 SAM、CLIP 级联用于零样本医学图像分割的测试时间自适应

该研究论文提出了一种将 Segment Anything Model（SAM）和 CLIP 集成为医学图像分割的统一框架 SaLIP 的方法，展示了在零样本分割中显著提高的 DICE 得分，在脑部（63.46%）、肺部（50.11%）和胎头（30.82%）等不同分割任务中表现出显著改进。

Apr, 2024

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023