CVPRNov, 2021

CRIS: 基于 CLIP 推理的参考图像分割

TL;DR本文提出了一种基于 CLIP 的终端到终端的指代图像分割框架(CRIS),该框架采用视觉语言解码器和对比学习实现文本到像素级特征的对齐,通过在三个基准数据集上的实验结果表明,该框架的性能显著优于现有方法。