Oct, 2021

双向图像与文本生成统一多模态转换器

TL;DR本文研究了图片到文本和文本到图片生成的联合学习,使用了基于Transformer 的单个多模式模型来统一学习双向任务,并通过两级粒度特征表示和序列级训练进一步改进Transformer的统一框架,实验证明,该方法显著提高了先前基于Transformer的模型X-LXMERT的文本到图像生成的FID(37.0→29.9)和在MS-COCO数据集上对细调图像到文本生成的CIDEr-D得分(100.9%→122.6%)。