Frozen CLIP: 强大的骨干网络用于弱监督语义分割

CVPRJun, 2024

Frozen CLIP: 强大的骨干网络用于弱监督语义分割

Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation

Bingfeng Zhang, Siyue Yu, Yunchao Wei, Yao Zhao, Jimin Xiao

TL;DR本文提出了基于 CLIP 模型的 WeCLIP 方法，用于弱监督语义分割。WeCLIP 将冻结的 CLIP 模型作为骨干网络进行语义特征提取，并设计了新的解码器来解释提取的语义特征进行最终预测。同时，我们利用冻结的骨干网络生成伪标签来训练解码器，并提出了一个校正模块来动态修正这些标签。我们的架构使得解码器和校正模块相互受益，以提高最终性能。大量实验证明了我们的方法在训练成本较低的情况下明显优于其他方法。此外，我们的 WeCLIP 方法在全监督设置下也取得了有希望的结果。

Abstract

weakly supervised semantic segmentation has witnessed great achievements with image-level labels. Several recent approaches use the clip model to generate →

weakly supervised semantic segmentation clip model weclip pseudo labels refinement module

发现论文，激发创造

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

CLIP 轻量级语义分割

通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Oct, 2023

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

卷积永难逝：单冻结卷积 CLIP 的开放词汇分割

使用共享的冻结卷积 CLIP 骨干网络，将当前的两阶段流程大大简化，并显著提高准确性和成本平衡，成为各种开放词汇语义分割数据集中的最新最佳表现。

Aug, 2023

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

LCCo：Lending CLIP to Co-Segmentation

本文研究了在一组图像中共同语义对象的共同分割，并使用对比式语言 - 图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络，我们引入了 CLIP 中的语义信息，并通过三个关键模块 ——i) 图像集特征对应模块，对图像集的全局一致语义信息进行编码；ii) CLIP 交互模块，利用 CLIP 提取的图像集的共同语义信息来优化骨干特征；iii) CLIP 正则化模块，引导 CLIP 朝向共同分割任务，找到最佳的 CLIP 语义并用其来正则化骨干特征 —— 以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。

Aug, 2023

优化语义关联微调的少样本 CLIP

通过对关注池化层进行微调，强调任务特定语义信息的注意力分布，以提高普通少样本学习的 CLIP 模型的效果。

Nov, 2023

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021