AAAISep, 2020

VIVO:用于新颖物体字幕生成的视觉词汇预训练

TL;DR通过 VIVO 预训练模型,该论文提出了一种使用无注释图像和标签数据进行预训练的方法,通过预训练一个多层转换器模型来学习视觉词汇,并验证了其在图像字幕生成中的有效性。