IJCAIJul, 2019

基于位置关注网络的图像文本匹配

TL;DR本论文介绍了一种基于位置关注的注意网络(PFAN),以解决图像和文本匹配任务中精确度量视觉和文本内容相似性的跨域问题,通过引入对象位置线索和注意机制,增强了图像和文本的特征表达和可信关系,从而实现了三个数据集上的最先进性能水平,包括我们自己收集的实际大规模新闻数据集 Tencent-News 上的实际应用价值验证。