CVPRApr, 2024

图像文字协同分解用于基于文字监督的语义分割

TL;DR该论文提出了一种基于文本监督的语义分割方法,通过使用仅限于图像 - 文本对而不使用密集标注的方式学习一种能够在图像内部分割任意视觉概念的模型。通过图像 - 文本对的对比学习,有效地实现了视觉分割与文本的对齐。为了解决文本对齐与语义分割之间存在的问题,我们提出了一种新颖的框架,即图像 - 文本协同分解(CoDe),其中配对的图像和文本分别被共同分解为一组图像区域和一组单词片段,并且采用对比学习来强制执行区域 - 单词的对齐。为了配合视觉语言模型,我们提出了一种提示学习机制,从而衍生出额外的表示以突出显示感兴趣的图像段落或单词片段,从该段落中可以提取出更有效的特征。综合实验结果表明,我们的方法在六个基准数据集上优于现有的文本监督的语义分割方法。