EMNLPSep, 2020

X-LXMERT: 使用多模态转换器进行绘画、字幕和回答问题

TL;DR本文研究了图像生成模型中的视觉语言模型(V&L 模型)LXMERT,发现其效果不如其他图像生成模型,因此提出了 X-LXMERT 模型,通过训练优化使其生成图像的能力媲美最先进的生成模型,同时保持了它在问答和字幕生成任务上的优秀表现,并证明这些训练优化可以推广到其他 V&L 模型上。