Jun, 2015

基于区域注意力和场景分解的图像字幕定位与描述对齐

TL;DR本文提出了一种使用平行结构、利用图像和句子之间的相似性及上下文信息生成图像描述的方法,将视觉感知与文本描述相结合,使用场景特定的上下文信息对句子中的词语生成进行调整,在多个流行数据集上的实验表明本方法在生成精准、丰富的图像描述方面表现优异。