Apr, 2019

基于显著性引导的图像 - 句子匹配注意力网络

TL;DR该研究旨在探讨图像和句子之间的匹配问题,提出了一种 Saliency-guided Attention Network 架构,包括视觉注意力和文本注意力模块,能够有效地提高多模态数据表示的准确性,并在 Flickr30K 和 MSCOCO 数据集上取得了大幅度的提升。