仅需要 Token 即可进行零样本语义分割

Apr, 2023

仅需要 Token 即可进行零样本语义分割

[CLS] Token is All You Need for Zero-Shot Semantic Segmentation

Letian Wu, Wenyao Zhang, Tengping Jiang, Wankou Yang, Xin Jin...

TL;DR通过使用预训练的视觉 - 语言模型 CLIP 中的全局标记作为类别先验，建立一个新的模型 ClsCLIP，扩展为零阶段密集预测语义分割方法以及应用本地放大策略进行改进，从而实现与少样本语义分割方法相当的良好性能。

Abstract

In this paper, we propose an embarrassingly simple yet highly effective zero-shot semantic segmentation (ZS3) method, based on the pre-trained vision-language model →

zero-shot semantic segmentation clip global tokens category priors

发现论文，激发创造

ZegCLIP：面向零样本语义分割的 CLIP 自适应

本文提出了一种基于 CLIP 的零样本语义分割方法 ZegCLIP，将其从图像级别扩展到像素级别，通过三种简单而有效的设计处理过拟合问题，具有更好的泛化能力和速度优势。

Dec, 2022

零样本语义分割解耦

本文提出了一种新的基于分割标签的应对零样本图像语义分割任务的方法 ——ZegFormer，采用无类别分组任务（class-agnostic grouping task）和基于分割标签的零样本分类任务（zero-shot classification task on segments）两个子任务，引入大规模视觉语言模型（如 CLIP），在 PASCAL VOC 和 COCO-Stuff 等数据集上取得了较大的性能提升。

Dec, 2021

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

CLIP 也是高效分割器：一种文本驱动的弱监督语义分割方法

利用 Contrastive Language-Image Pre-training (简称 CLIP) 模型进行图像级标注的弱监督语义分割 (WSSS) 是一项具有挑战性的任务。本文提出了一种 CLIP-ES 框架，结合了 softmax 函数、基于文本的驱动策略和一种实时的基于注意力机制的亲和度 (CAA) 模块，以及 CGL 损失，来提高 WSSS 的效率和性能。

Dec, 2022

探索无人类标签的开放词汇语义分割

该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法，将预训练模型中的视觉概念知识转化为分割区域的语义信息表示（即 segment tokens）并应用于视觉语义分割任务中。实验结果表明，该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。

Jun, 2023

将 CLIP 的知识转化为零样本点云语义分割

本文提出了一种简单而有效的基线方法，将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器，从而在零样本点云语义分割中取得了显著的性能提升，并在无标注点云语义分割设置中取得了有希望的结果，展示了其在标签效率学习方面的巨大潜力。

Dec, 2023

零样本语义分割

本文提出了一个新的任务：零样本语义分割，要求学习像素级分类器从未见过的物体类别中进行分类。ZS3Net 是本文提出的一种新架构，它将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合，以实现在测试时间处理已见和未见类别的像素分类任务。本文还通过自我训练进一步提高了性能，并在 Pascal-VOC 和 Pascal-Context 两个标准分割数据集上提出了零样本基准并设立竞争基线。此外，对于像 Pascal-Context 数据集中的复杂场景，我们通过使用图形上下文编码来完全利用来自类别分割地图的空间上下文先验知识。

Jun, 2019

CenterCLIP: 用于高效文本 - 视频检索的 Token 聚类

本文介绍了 CenterCLIP，它是一种新的视频标记聚类算法，在减少多余的视频标记、提高视频与文本表示的语义对齐方面表现优异，并取得了比现有最先进方法更好的结果

May, 2022