无需指导的开放词汇语义分割

Mar, 2024

TAG: Guidance-free Open-Vocabulary Semantic Segmentation

Yasufumi Kawano, Yoshimitsu Aoki

TL;DRTAG 是一种新颖的方法，用于在计算机视觉中进行无需训练、注释和指导的开放词汇语义分割，通过利用预训练模型以及来自外部数据库的类别标签检索，达到了在 PascalVOC、PascalContext 和 ADE20K 数据集上的开放词汇分割的最新成果。

Abstract

semantic segmentation is a crucial task in computer vision, where each pixel in an image is classified into a category. However, traditional methods face significant challenges, including the need for pixel-level

semantic segmentation computer vision unsupervised segmentation open-vocabulary segmentation tag

发现论文，激发创造

探索无人类标签的开放词汇语义分割

该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法，将预训练模型中的视觉概念知识转化为分割区域的语义信息表示（即 segment tokens）并应用于视觉语义分割任务中。实验结果表明，该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。

Jun, 2023

利用图像级标签扩展开放词汇图像分割规模

本文提出了 OpenSeg 模型，通过学习像素的可视化分组和视觉 - 语义对齐，利用可扩展的图像级监督生成分割掩码，从而实现对图像的开放词汇的分割与组织，相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。

Dec, 2021

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

FreeSeg: 统一、通用和开放词汇库的图像分割

本文提出了一种通用框架 FreeSeg，通过一次训练优化全一体网络，并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外，自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念，在多任务和各种场景中提高模型鲁棒性。大量实验结果表明，在三个分割任务上，FreeSeg 在性能和泛化方面建立了新的最先进结果，比最好的任务特定架构高出很大的幅度：在语义分割、实例分割和 COCO 上的全景分割中，未见类别的 PQ 分别达到 5.5％，17.6％和 20.1％。

Mar, 2023

野外语境中的语义分割：无需参考任何分割实例

该论文提出一种基于视觉 - 语言嵌入模型和测试时增强技术的无监督伪标记方法，可以在不需要训练语义分割网络或看到任何分割掩码的情况下为每个对象创建语义分割遮罩。

Dec, 2021

无需训练的离线扩散增强原型生成开放词汇分词

该论文介绍了一种用于开放词汇语义分割的无需训练的扩散增强方法（FreeDA），通过扩散模型的能力来可视化生成概念并通过局部 - 全局相似性将无类别区域与语义类别匹配，从而在五个数据集上实现了超过 7.0 平均 IoU 点的最先进性能，而无需任何训练。

Apr, 2024

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

注重邻居：无需训练的开放词汇语义分割

借鉴了 CLIP 模型，并通过自适应 CLIP 的可视化 transformer 来强化感知，提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS)，在 8 个流行的语义分割评估中获得了最先进的性能。

Apr, 2024