AAAINov, 2019

学习跨模态上下文图进行视觉定位

TL;DR本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系,以及跨模态图匹配策略来解决多短语视觉定位任务,实验证明我们的方法优于现有技术,并提供了开源代码。