ICCVSep, 2015

引导长短期记忆在图像字幕生成中的应用

TL;DR该研究致力于解决图像标题生成的问题,提出了一种名为 gLSTM 的扩展型 LSTM 模型,通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中,以更紧密地融合图像内容,同时探索了不同的长度标准化策略用于 beam search,以防止偏爱短句子,在 Flickr8K,Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。