Feb, 2024

无配对掩码-文本监督下的开放词汇分割

TL;DR使用独立的图像-蒙版和图像-文本对,利用不配对的蒙版-文本监督,提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg),通过利用自信的蒙版预测和文本描述中的实体,在CLIP嵌入空间中关联一组二进制蒙版和实体,采用大型视觉-语言模型 (LVLM) 对文本进行精炼,设计多尺度集成以稳定蒙版和实体之间的匹配,相较于仅使用文本进行弱监督的方法,在ADE20K数据集上实现了15.5% mIoU的显著改进,在具有挑战性的PASCAL Context-459数据集上甚至超过了完全监督的方法。