Dec, 2023

基于基础模型辅助的弱监督语义分割

TL;DR这项研究旨在利用预训练的基础模型,如对比语言图像预训练(CLIP)和分段任意模型(SAM),利用图像级别标签解决弱监督语义分割(WSSS)。为此,我们提出了基于CLIP和SAM的粗到精细的框架,用于生成高质量的分割种子。我们通过冻结权重的CLIP和两组可学习的任务特定提示共同执行图像分类任务和种子分割任务。我们设计了一个基于SAM的分区(SAMS)模块,并将其应用于每个任务以生成粗糙或精细的种子图。此外,我们设计了一个多标签对比损失,由图像级别标签监督,和一个由生成的粗糙种子图监督的CAM激活损失。这些损失用于学习提示,在我们的框架中,提示是唯一需要学习的部分。一旦学习了提示,我们将每个图像以及学习的分割特定提示输入到CLIP和SAMS模块中,以生成高质量的分割种子。这些种子用作伪标签,用于训练一种现成的分割网络,就像其他两阶段的WSSS方法一样。实验证明,我们的方法在PASCAL VOC 2012上取得了最先进的性能,并在MS COCO 2014上获得了有竞争力的结果。