ECCVJul, 2022
通过对比和聚类视觉语言嵌入进行开放世界语义分割
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding
Quande Liu, Youpeng Wen, Jianhua Han, Chunjing Xu, Hang Xu...
TL;DR本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。