Feb, 2023

基于图文自监督训练的多模态预训练模型泛化算法

TL;DR本研究提出了一种多模态预训练泛化算法,有效克服了神经机器翻译中缺乏视觉信息和准确性等难题,通过搜索引擎从现有句子中寻找多张图片,通过视觉信息与文本的关系完成图文自监督训练任务,得到更加有效的视觉信息,并证明基于该算法的翻译效果比基线模型高出 0.5 BLEU。