Nov, 2014

多模态神经语言模型统一视觉-语义嵌入

TL;DR本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。