ICCVSep, 2021

从自然语言监督中学习生成场景图

TL;DR本文提出了一种通过图像 - 句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。