COLINGJan, 2022

基于视觉信息引导的零射击释义生成

TL;DR本文提出了一种基于视觉信息的零样本释义生成模型 ViPG,它利用图像的引导作用,通过联合训练图像字幕模型和释义模型,生成具有良好相关性、流畅性和多样性的释义,表明图像作为零样本释义的一种引导方式具有潜在前景。