IJCAIMar, 2023

来自图像标签文本的迭代式少样本语义分割

TL;DR本文提出了一种利用视觉 - 语言模型 CLIP 生成粗略掩模并迭代互相调整支持和查询图片的掩模预测的框架,实验结果表明该方法不仅在 PASCAL-5i 和 COCO-20i 数据集上优于最先进的弱监督方法,还能够取得与最近的有监督方法相当甚至更好的结果,并且具有出色的野外图像和非常规类别的泛化能力。