基于自然语言的语义分割

ICLRJan, 2022

Language-driven Semantic Segmentation

Boyi Li, Kilian Q. Weinberger, Serge Belongie, Vladlen Koltun, René Ranftl

TL;DRLSeg 是一种用于语言驱动语义图像分割的新模型，使用文本编码器计算输入标签的嵌入，和基于 transformer 的图像编码器计算输入图像的嵌入，实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入，该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器，实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练，且具有高度竞争的零 - shot 性能。

Abstract

We present lseg, a novel model for language-driven semantic image segmentation. lseg uses a text encoder to compute embeddings of descript

lseg semantic image segmentation text encoder transformer-based image encoder zero-shot performance

发现论文，激发创造

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024

基于 LLM 监督的零训练语义分割

该论文介绍了一种利用大型语言模型（LLM）进行文本监督语义分割的新方法，该方法通过生成更准确的类别表示来提供多样化的分割结果，并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验，我们的方法比传统的文本监督语义分割方法表现出更好的性能。

Mar, 2024

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

探索无人类标签的开放词汇语义分割

该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法，将预训练模型中的视觉概念知识转化为分割区域的语义信息表示（即 segment tokens）并应用于视觉语义分割任务中。实验结果表明，该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。

Jun, 2023

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

IFSeg：基于视觉语言模型的无图像语义分割

本文提出了一种新的无图像分割任务，旨在通过视觉语言预训练模型，生成基于语义类别的人工图像分割对，并通过对这些人工对的学习，让预训练模型适应于分割任务，该方法在实验中表现良好。

Mar, 2023

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

基于语言的视觉一致性用于零样本语义分割

通过基于训练的视觉 - 语言模型，CLIP，使用变换器解码器将视觉特征与类别嵌入对齐，生成语义分割掩码，本研究提出一种语言驱动的视觉共识（LDVC）方法，通过利用类别嵌入作为锚点，引导视觉特征朝向类别嵌入，通过引入路由注意力来增强同一对象内的语义一致性，并配备视觉 - 语言提示策略，显著提升了未见类别的分割模型的泛化能力，实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。

Mar, 2024

利用图像级标签扩展开放词汇图像分割规模

本文提出了 OpenSeg 模型，通过学习像素的可视化分组和视觉 - 语义对齐，利用可扩展的图像级监督生成分割掩码，从而实现对图像的开放词汇的分割与组织，相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。

Dec, 2021

用语言指导进行任意粒度的通用分割

实现任意语义级别的通用分割模型 UniLSeg，通过语言指导实现各种任务和设置的优秀性能。

Dec, 2023