Nov, 2022

SegCLIP: 可学习中心的补丁聚合方法用于开放式语义分割

TL;DR本文提出了一个 CLIP-based 的模型,名为 SegCLIP,以无注释的方式实现了开放式词汇语义分割,其主要思想是通过训练文本 - 图像对来聚集有可学习中心的补丁形成语义区域。文中还在被屏蔽掉的补丁上提出了一种重构损失和基于超像素的 KL 损失与伪标签相结合来增强视觉表征,实验结果表明,该模型在与基线的比较中,在 PASCAL VOC 2012(+1.4% mIoU)、PASCAL Context(+2.4% mIoU)和 COCO(+5.6% mIoU)上实现了相当或更高的分割精度。