Feb, 2023

检索辅助的图像字幕生成

TL;DR提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法,该方法联合处理图像和从 Datastore 检索到的字幕,实现了检索增强的语言生成,该方法名为 EXTRA。实验结果表明,检索足够数量的字幕可以提高字幕生成的质量。