ICCVSep, 2019
图像 - 文本匹配的视觉语义推理
Visual Semantic Reasoning for Image-Text Matching
Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li, Yun Fu
TL;DR我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。