EMNLPJul, 2017

学习多语言多模态表示的图像枢转

TL;DR本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型,其目的是提高多语言版本的图像搜索和理解,在图像描述排名及语义文本相似度方面实现了最先进的性能。