CVPRApr, 2020

通过提炼图像 - 文本匹配模型,实现更加扎实的图像字幕生成

TL;DR本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。