基于语言的视觉一致性用于零样本语义分割

Mar, 2024

基于语言的视觉一致性用于零样本语义分割

Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation

Zicheng Zhang, Tong Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang...

TL;DR通过基于训练的视觉 - 语言模型，CLIP，使用变换器解码器将视觉特征与类别嵌入对齐，生成语义分割掩码，本研究提出一种语言驱动的视觉共识（LDVC）方法，通过利用类别嵌入作为锚点，引导视觉特征朝向类别嵌入，通过引入路由注意力来增强同一对象内的语义一致性，并配备视觉 - 语言提示策略，显著提升了未见类别的分割模型的泛化能力，实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。

Abstract

The pre-trained vision-language model, exemplified by CLIP, advances zero-shot semantic segmentation by aligning visual features with class embeddings through a transformer decoder to generate semantic masks. Des

pre-trained vision-language model zero-shot semantic segmentation language-driven visual consensus class embeddings vision-language prompting strategy

发现论文，激发创造

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移

本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法，通过在源领域进行训练并在未见目标领域进行评估，提高了领域通用性。实验证明，该方法在域通用分割中的性能优于传统的视觉训练方法，取得了 7.6% mIoU 的提升。同时，在主流数据集上取得了 76.48% mIoU 的性能，超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力，并在当前排行榜上与最优方法并列第一。

Dec, 2023

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

构建语义间隔以实现语言引导的语义分割

通过提出概念整理（CoCu）的流程，借助 CLIP 来弥补语义缺失，将视觉和文本语义之间的差距缩小，从而在预训练数据中增加了更多的视觉概念，并在零样本迁移和语义分割等方面取得了卓越的性能。

Sep, 2023

通过自我结构语义对齐实现真实零样本分类

我们提出了 Self Structural Semantic Alignment (S^3A) 框架，该框架通过从无标签数据中提取结构语义信息并进行自学习，克服了传统的基于大规模预训练视觉语言模型方法所存在的假设有部分源监督或理想词汇表的限制，通过 Cluster-Vote-Prompt-Realign 算法实现迭代聚类，利用大语言模型生成辨别性提示来识别混淆的类别候选项，并通过师生学习策略进行自学习，实现了对现实中零样本分类的挑战，多个实验表明该方法明显优于现有的基于 VLMs 的方法，相对于 CLIP 平均提高了 15% 以上的准确性。

Aug, 2023

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Nov, 2023

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023