MMJun, 2019

上下文感知的视觉策略网络用于细粒度图像字幕生成

TL;DR该论文提出了一种上下文感知的视觉策略网络(CAVP)来实现细粒度的图像描述生成,通过明确考虑前面的视觉注意力并使用当前视觉注意力决定是否将其用于当前词 / 句子生成,CAVP 可以随时间考虑复杂的视觉组合,从而在 MS-COCO 和 Stanford 字幕数据集上表现出卓越的性能。