Aug, 2016

phi-LSTM:一种面向短语的分层 LSTM 图像字幕生成模型

TL;DR本文提出了一种基于短期长期记忆(LSTM)和卷积神经网络(CNN)的基于短语层次结构的模型,可用于生成图像描述。该模型以序列化的短语和单词组合而不是通常的序列化单词作为输入,分别学习生成图像相关的名词短语,然后从语料库中的短语和其他单词生成适当的图像描述,并在 Flickr8k 和 Flickr30k 数据集上取得了更好或相当的结果。