CVPRDec, 2016

通过视觉哨兵实现自适应关注的图像字幕

TL;DR本文提出了一种新的自适应注意力模型,具有视觉哨兵,在每个时间步骤,模型决定是关注图像还是关注视觉哨兵,通过这种方式针对性地提取有意义的信息以生成图像字幕,实验证明我们的方法在 COCO 图像字幕 2015 年挑战数据集和 Flickr30K 上的效果优越并创造了新的最佳表现。