ACLMar, 2022

DU-VLG:通过双序列预训练统一视觉和语言生成

TL;DR本论文提出了一种名为 DU-VLG 的框架,该框架将视觉和语言生成视为序列生成问题,并通过双向生成,利用对图像和文本的成对处理。采用多模态降噪自编码器任务和模态翻译任务进行双重预训练,并设计了一种新的承诺损失方法,以提高图像生成的质量。研究结果表明,与采用单向生成目标或不使用承诺损失的变体相比,DU-VLG 在图像字幕和文本到图像生成数据集上的性能更好,并在三个视觉和语言生成任务中获得了比以前的最先进系统更高的得分。此外,人类评测员进一步确认我们的模型生成了真实相关的图像并带有忠实和有信息的说明。