ICCVOct, 2019

人类认知风格下使用整体上下文信息进行图像标题生成的探索

TL;DR本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获取整体上下文信息。其次,为了提高跨领域模型生成更高质量的句子,我们进一步开发了跨模态注意机制来修饰两个句子,通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明,该模型改善了编码器解码器模型的性能,并取得了最先进的结果。