Feb, 2024

无配对掩码 - 文本监督下的开放词汇分割

TL;DR使用独立的图像 - 蒙版和图像 - 文本对,利用不配对的蒙版 - 文本监督,提出了一种新的弱监督开放词汇分割框架 (Uni-OVSeg),通过利用自信的蒙版预测和文本描述中的实体,在 CLIP 嵌入空间中关联一组二进制蒙版和实体,采用大型视觉 - 语言模型 (LVLM) 对文本进行精炼,设计多尺度集成以稳定蒙版和实体之间的匹配,相较于仅使用文本进行弱监督的方法,在 ADE20K 数据集上实现了 15.5% mIoU 的显著改进,在具有挑战性的 PASCAL Context-459 数据集上甚至超过了完全监督的方法。