ICCVDec, 2016

图像字幕注意力区域

TL;DR提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。