AAAISep, 2017

深度学习中的栈式字幕生成:图像字幕学习的粗到细的逐层逼近学习

TL;DR本文提出了一种粗到细的多阶段图像字幕预测框架,利用多个解码器,每个解码器在前一阶段的输出上操作,产生越来越精细的图像描述,优化模型的方法采用了一种强化学习方法,通过利用每个中间解码器的测试推理算法的输出,同时解决了暴露偏差问题和损失评估不匹配的问题,对 MSCOCO 进行广泛评估,并表明我们的方法可以实现最先进的性能。