ICCVApr, 2015

多模态卷积神经网络:图像和文本匹配

TL;DR本论文提出了多模态卷积神经网络 (m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的 m-CNNs 可以有效地捕捉图像和句子匹配所需的信息,并在 Flickr30K 和 Microsoft COCO 数据库的双向图像和句子检索上取得了最先进的性能。