Aug, 2023

通过不匹配关系推理进行图像文本匹配

TL;DR本文介绍了 Grounded Image Text Matching with Mismatched Relation(GITM-MR),这是一种评估基于 Transformer 的预训练模型的关系理解能力的新颖的视觉 - 语言联合任务。GITM-MR 要求模型首先确定一个表达是否描述了一个图像,然后定位所指对象或者对文本中不匹配的部分进行地面化。我们提供了一个评估预训练模型在这一任务上的基准,重点考虑数据有限和分布句子长度的挑战性设置。我们的评估表明,预训练模型缺乏数据效率和长度泛化能力。为了解决这个问题,我们提出了 Relation-sensitive Correspondence Reasoning Network(RCRN),该网络通过双向消息传递引导语言结构的方式,融入了关系感知的推理。RCRN 可以解释为模块化程序,并在长度泛化和数据效率方面表现出很好的性能。