Jun, 2019

基于关系嵌入的指代表达式 grounding 表示学习

TL;DR本文提出了一种 Cross-Modal Relationship Extractor (CMRE) 的方法,利用跨模式的注意力机制自适应地提取和关联表达式中与对象相关的空间和语义关系,并将提取的信息表示为语言导向的视觉关系图。同时,我们还提出了一种 Gated Graph Convolutional Network (GGCN),通过融合不同模式的信息并在结构化的关系图中传播多模式信息来计算多模式语义上下文,并在三个通用基准数据集上证明了该方法的显著优于所有现有的最新方法。