Nov, 2016
利用大规模网络标注图像进行多模态词嵌入的训练和评估
Training and Evaluating Multimodal Word Embeddings with Large-scale Web
Annotated Images
TL;DR本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集,其中包含300万语句,描述了来自Pinterest的超过4000万张图像。该研究还报道了一种基于RNN的多模态模型,通过在嵌入中整合视觉信息,该模型可以找到语义相似或相关的单词和短语。经验表明,共享策略对于学习这种多模态嵌入至关重要。