Apr, 2015

多模态卷积神经网络:图像和文本匹配

TL;DR本论文提出了多模态卷积神经网络(m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的m-CNNs可以有效地捕捉图像和句子匹配所需的信息,并在Flickr30K和Microsoft COCO数据库的双向图像和句子检索上取得了最先进的性能。