从 CLIP 中提取无标签稠密特征

ECCVDec, 2021

Extract Free Dense Labels from CLIP

Chong Zhou, Chen Change Loy, Bo Dai

TL;DR本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Abstract

Contrastive Language-Image pre-training (clip) has made a remarkable breakthrough in open-vocabulary zero-shot image recognition. Many recent studies leverage the pre-trained →

clip pre-training semantic segmentation maskclip pseudo labeling

发现论文，激发创造

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

DenseCLIP: 基于语言引导的密集预测和上下文感知提示

本文提出了一种框架，通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测，是一种模型不可知的方法，可应用于任意密集预测系统和各种预训练视觉 Backbones，包括 CLIP 模型和 ImageNet 预训练模型，实证实验表明，我们的方法在语义分割，目标检测和实例分割任务上具有优越的性能。

Dec, 2021

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

SCLIP：为密集视觉语言推理重新思考自注意力

通过引入新的自相关自注意力（CSA）机制，增强了 CLIP 在语义分割方面的潜力，并且在零样本 mIoU 方面明显优于现有的 SoTA 结果和原始的 CLIP。

Dec, 2023

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

本文提出了一个 CLIP-based 的模型，名为 SegCLIP，以无注释的方式实现了开放式词汇语义分割，其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征，实验结果表明，该模型在与基线的比较中，在 PASCAL VOC 2012（+1.4% mIoU）、PASCAL Context（+2.4% mIoU）和 COCO（+5.6% mIoU）上实现了相当或更高的分割精度。

Nov, 2022