ICCVAug, 2023

破碎和聚集:利用文本监督学习参考图像分割

TL;DR在此研究中,我们使用弱监督学习方法,利用训练图像的文本描述作为唯一的监督来源,解决了训练数据标记成本高昂的问题,并提出了一种新模型来发现输入图像中的语义实体,并组合与文本查询相关的实体来预测指代物的掩码。我们还提出了一种新的损失函数,使得模型可以在没有进一步监督的情况下进行训练。我们的方法在四个公共基准数据集上进行了评估,明显优于相同任务的现有方法和最近的开放词汇分割模型。