Nov, 2018
多层级多模态共享语义空间用于图像-短语对齐
Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding
TL;DR本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法,通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间,在其中进行图像和文本之间的相关性计算,通过多级多模态注意力机制来指导模型,实现了在图像语句配对的协同注意力下的短语本地化,相比先前最先进的方法性能提升了20%-60%,并在公共基准数据集上有了新的性能纪录。