ACLMay, 2023

LMCap: 基于检索增强语言模型提示的少样本多语言图像字幕生成

TL;DR提出了一种无需多语种字幕数据,使用基于检索式的模型 LMCap,在进行少样本学习的情况下完成多语种图像字幕生成,其步骤包括使用多语 CLIP 编码器检索相似图像的字幕,将这些字幕结合成 XGLM 解码器的提示来生成所需语言的字幕,并在实验中证明,该模型不需要在任何字幕数据上进行监督学习,即可与完全监督的多语种字幕生成模型相竞争。