ECCVNov, 2019

将先验知识注入图像字幕生成

TL;DR本研究提出了一种结合条件潜在主题关注和规范化技术的图像字幕模型,旨在改善 MSCOCO 数据集上的表现,并证实其能够生成更符合人类直觉的字幕描述。