CVPRJun, 2024

组合对象关系和属性进行图像 - 文本匹配

TL;DR本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验,证明了相对于计算成本高的交叉注意方法,CORA 在召回得分上具有优势,同时实现了双编码器的快速计算速度。