NIPSNov, 2016

利用大规模网络标注图像进行多模态词嵌入的训练和评估

TL;DR本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集,其中包含 300 万语句,描述了来自 Pinterest 的超过 4000 万张图像。该研究还报道了一种基于 RNN 的多模态模型,通过在嵌入中整合视觉信息,该模型可以找到语义相似或相关的单词和短语。经验表明,共享策略对于学习这种多模态嵌入至关重要。