Mar, 2024

基于语言的视觉一致性用于零样本语义分割

TL;DR通过基于训练的视觉 - 语言模型,CLIP,使用变换器解码器将视觉特征与类别嵌入对齐,生成语义分割掩码,本研究提出一种语言驱动的视觉共识(LDVC)方法,通过利用类别嵌入作为锚点,引导视觉特征朝向类别嵌入,通过引入路由注意力来增强同一对象内的语义一致性,并配备视觉 - 语言提示策略,显著提升了未见类别的分割模型的泛化能力,实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。