LCCo：Lending CLIP to Co-Segmentation

Aug, 2023

LCCo: Lending CLIP to Co-Segmentation

Xin Duan, Yan Yang, Liyuan Pan, Xiabi Liu

TL;DR本文研究了在一组图像中共同语义对象的共同分割，并使用对比式语言 - 图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络，我们引入了 CLIP 中的语义信息，并通过三个关键模块 ——i) 图像集特征对应模块，对图像集的全局一致语义信息进行编码；ii) CLIP 交互模块，利用 CLIP 提取的图像集的共同语义信息来优化骨干特征；iii) CLIP 正则化模块，引导 CLIP 朝向共同分割任务，找到最佳的 CLIP 语义并用其来正则化骨干特征 —— 以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。

Abstract

This paper studies co-segmenting the common semantic object in a set of images. Existing works either rely on carefully engineered networks to mine the implicit semantic information in visual features or require extra data (i.e., classification labels) for training. In this paper, we l

co-segmentation common semantic object clip backbone segmentation network coarse-to-fine refinement

发现论文，激发创造

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIP 轻量级语义分割

通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Oct, 2023

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

本文提出了一个 CLIP-based 的模型，名为 SegCLIP，以无注释的方式实现了开放式词汇语义分割，其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征，实验结果表明，该模型在与基线的比较中，在 PASCAL VOC 2012（+1.4% mIoU）、PASCAL Context（+2.4% mIoU）和 COCO（+5.6% mIoU）上实现了相当或更高的分割精度。

Nov, 2022

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

CLIP-DIY：CLIP 密集推理免费实现开放词汇语义分割

本文提出了一种名为 CLIP-DIY 的开放词汇语义分割方法，该方法利用现有的无监督目标定位方法，直接在不同尺度的补丁上利用 CLIP 的分类能力，并通过无监督的目标定位方法指导分割过程，从而在 PASCAL VOC 上获得了最新的零样本语义分割结果，并在 COCO 上表现与最佳方法相当。

Sep, 2023

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023