Jun, 2016

文本条件注意力图像字幕生成

TL;DR提出了一种名为文本条件注意力的新型注意力机制,它允许生成器在给定先前生成的文本的情况下专注于特定的图像特征,通过在一个端到端的网络结构中联合学习图像嵌入,文本嵌入,文本条件注意力和语言模型。在 MS-COCO 数据集上进行了大量实验,实验结果表明,该方法在各种定量指标以及人类评估方面均优于现有的图像字幕方法,这支持了在图像字幕中使用文本条件注意力的应用。