ACLDec, 2019

从标题和边界框中学习关联

TL;DR本研究提出一种弱监督学习方法,通过利用图像标题和对象边界框注释作为唯一的监督信息来预测图像中各种实体之间的关系。我们使用自上而下的关注机制将标题中的实体对齐到图像中的对象,然后利用标题的语法结构将关系对齐。我们使用这些对齐来训练关系分类网络,从而获得基于现实的字幕和稠密的关系。我们在 Visual Genome 数据集上展示了我们模型的有效性,其关系的召回率达到 15%(@50)和 25%(@100)。我们还展示了该模型成功预测了与相应字幕中不存在的关系。