图像文字协同分解用于基于文字监督的语义分割

CVPRApr, 2024

图像文字协同分解用于基于文字监督的语义分割

Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

Ji-Jia Wu, Andy Chia-Hao Chang, Chieh-Yu Chuang, Chun-Pei Chen, Yu-Lun Liu...

TL;DR该论文提出了一种基于文本监督的语义分割方法，通过使用仅限于图像 - 文本对而不使用密集标注的方式学习一种能够在图像内部分割任意视觉概念的模型。通过图像 - 文本对的对比学习，有效地实现了视觉分割与文本的对齐。为了解决文本对齐与语义分割之间存在的问题，我们提出了一种新颖的框架，即图像 - 文本协同分解（CoDe），其中配对的图像和文本分别被共同分解为一组图像区域和一组单词片段，并且采用对比学习来强制执行区域 - 单词的对齐。为了配合视觉语言模型，我们提出了一种提示学习机制，从而衍生出额外的表示以突出显示感兴趣的图像段落或单词片段，从该段落中可以提取出更有效的特征。综合实验结果表明，我们的方法在六个基准数据集上优于现有的文本监督的语义分割方法。

Abstract

This paper addresses text-supervised semantic segmentation, aiming to learn a model capable of segmenting arbitrary visual concepts within images by using only image-text pairs without dense annotations. Existing

text-supervised semantic segmentation image-text pairs contrastive learning semantic concepts vision-language model

发现论文，激发创造

仅基于图像 - 文本对学习生成文本导向掩膜，用于开放世界语义分割

本文提出了一种名为 Text-grounded Contrastive Learning 的框架，用于解决利用图像 - 文本对进行开放式语义分割任务存在的图像 - 文本不一致问题，并在八个经典的语义分割数据集上达到了最先进的零样本分割表现。

Dec, 2022

将空间一致分组与文本监督的语义分割相结合

该研究通过自学习模型和文本监督模型相结合，采用有意义的空间一致性对图像进行语义分割，增强了文本监督模型对物体边界的识别，实现了良好的分割效果。

Apr, 2023

基于多视角语义一致性的文本监督分割掩模发现 (ViewCo)

本文提出了一种基于文本监督的分割方法，使用多视角一致性学习的方法解决了现有工作中对于同一图像的多个视角的对应问题。实验结果表明，该方法在几个数据集上的平均表现比现有方法提高了最高 2.9％的 mIoU。

Jan, 2023

利用文本区域增强的面向对象分层表示的自我监督场景文本分割

通过自我监督场景文本分割算法，基于对象为中心的分割方式将图像分割为文本和背景层，改进网络对文本的敏感性，以解决像素级标签和合成数据集的问题，取得了比现有算法更好的效果。

Aug, 2023

利用合作的跨模态侧面信息的知觉图像压缩

本文介绍一种利用文本引导辅助信息的创新深度图像压缩方法，通过预测语义掩码，将文本和图像特征融合，设计了条件生成对抗网络以改进重建图像的感知质量，并在四个数据集和十个图像质量评估指标下证明了该方法在速率感知性能和语义失真方面的优越结果。

Nov, 2023

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

图像字幕半监督框架

提出了一种新的图像字幕生成方法，该方法能够利用无图像数据的文本数据，并使用区域图像特征生成有意义的二进制向量，从而获得更准确和多样化的字幕。该方法的主要优点是能够生成具有 Salient 图像属性的有意义的二进制向量，并通过软关注机制对其进行解码。

Nov, 2016

GroupViT：语义分割从文本监督中崛起

本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT)，能够学习将图像区域分组成任意形状的语义段，且仅依赖于文本监督，无需像素级注释，实现了零阶段语义分割任务，并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。

Feb, 2022

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

文本到图像生成的语义分离

该文提出了一种新的文本图像生成模型，使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性，并在 CUB 和 MS-COCO 数据集上展示了其优异性能。

Apr, 2019