ECCVJul, 2022

通过对比和聚类视觉语言嵌入进行开放世界语义分割

TL;DR本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。