SemiVL: 基于视觉 - 语言引导的半监督语义分割

Nov, 2023

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance

Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari

TL;DRSemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Abstract

In semi-supervised semantic segmentation, a model is trained with a limited number of labeled images along with a large corpus of unlabeled images to reduce the high annotation effort. While previous methods are able to learn good segmentation boundaries, they are prone to confuse clas

semi-supervised semantic segmentation vision-language models label-efficient learning language guidance class definitions

发现论文，激发创造

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

IFSeg：基于视觉语言模型的无图像语义分割

本文提出了一种新的无图像分割任务，旨在通过视觉语言预训练模型，生成基于语义类别的人工图像分割对，并通过对这些人工对的学习，让预训练模型适应于分割任务，该方法在实验中表现良好。

Mar, 2023

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

基于语言的视觉一致性用于零样本语义分割

通过基于训练的视觉 - 语言模型，CLIP，使用变换器解码器将视觉特征与类别嵌入对齐，生成语义分割掩码，本研究提出一种语言驱动的视觉共识（LDVC）方法，通过利用类别嵌入作为锚点，引导视觉特征朝向类别嵌入，通过引入路由注意力来增强同一对象内的语义一致性，并配备视觉 - 语言提示策略，显著提升了未见类别的分割模型的泛化能力，实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。

Mar, 2024