ACLSep, 2021

RefineCap: 图像字幕的概念感知细化

TL;DR该论文提出了一种新型模型 RefineCap,使用解码器引导的视觉语义来完善语言解码器的输出词汇,并隐式地学习图像与视觉标签词之间的映射,其提出的视觉概念完善方法可允许生成器关注图像中的语义细节,从而生成更具有语义描述性的标题。在与以前基于视觉概念的模型相比,我们的模型在 MS-COCO 数据集上实现了优越的性能。