CLIP 轻量级语义分割

Oct, 2023

CLIP for Lightweight Semantic Segmentation

Ke Jin, Wankou Yang

TL;DR通过引入一个新的特征融合模块，本研究提出了一种解决使用轻量级网络的语言引导范式的方法，该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐，并展示出优于之前的最佳方法的性能。

Abstract

The large-scale pretrained model clip, trained on 400 million image-text pairs, offers a promising paradigm for tackling vision tasks, albeit at the image level. Later works, such as DenseCLIP and LSeg, extend this paradigm to →

clip dense prediction feature fusion module language-guided paradigm lightweight networks

发现论文，激发创造

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

PyramidCLIP：视觉语言模型预训练的分层特征对齐

PyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能，并在不同的数据集上取得了极具竞争力的结果。

Apr, 2022

DenseCLIP: 基于语言引导的密集预测和上下文感知提示

本文提出了一种框架，通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测，是一种模型不可知的方法，可应用于任意密集预测系统和各种预训练视觉 Backbones，包括 CLIP 模型和 ImageNet 预训练模型，实证实验表明，我们的方法在语义分割，目标检测和实例分割任务上具有优越的性能。

Dec, 2021

从 CLIP 中提取无标签稠密特征

本文旨在探讨 Contrastive Language-Image Pre-training (CLIP) 在像素级密集预测，特别是语义分割方面的潜力，并以 MaskCLIP 为例证明了它在无需注释和微调的情况下可以产生令人满意的分割结果。通过添加伪标签和自训练，MaskCLIP + 甚至超过了 SOTA 的泛化零样本语义分割方法。

Dec, 2021

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

优化语义关联微调的少样本 CLIP

通过对关注池化层进行微调，强调任务特定语义信息的注意力分布，以提高普通少样本学习的 CLIP 模型的效果。

Nov, 2023

LCCo：Lending CLIP to Co-Segmentation

本文研究了在一组图像中共同语义对象的共同分割，并使用对比式语言 - 图像预训练框架 (CLIP) 来完成该任务。通过一个用于独立处理图像集中每个图像的骨干分割网络，我们引入了 CLIP 中的语义信息，并通过三个关键模块 ——i) 图像集特征对应模块，对图像集的全局一致语义信息进行编码；ii) CLIP 交互模块，利用 CLIP 提取的图像集的共同语义信息来优化骨干特征；iii) CLIP 正则化模块，引导 CLIP 朝向共同分割任务，找到最佳的 CLIP 语义并用其来正则化骨干特征 —— 以一种粗糙到精细的方式优化这些特征。在四个标准的共同分割基准数据集上的实验证明了我们方法的性能优于最先进的方法。

Aug, 2023

面向边缘设备的高效图像字幕生成

提出了一种基于 CLIP 模型的轻量级图像字幕生成器 LightCap，可以在资源有限的设备上使用，仅包含 40M 参数，比现有技术方法的模型大小减少了超过 75％，与仅使用单个 CPU 的手机的推理速度为 188ms 每张图像，并在著名数据集上表现出最先进的性能。

Dec, 2022