Dec, 2021
ERNIE-ViLG:双向视觉语言生成统一预训练
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation
TL;DR本文提出了基于Transformer模型的统一生成预训练框架 - ERNIE-ViLG,旨在处理双向图像-文本生成任务,采用图像量化模型并将图像生成和文本生成条件建模为自回归的生成任务,通过双向图像-文本生成建模易于实现语义对齐。在大规模数据集上进行训练,取得了针对文本-图像合成和图像描述任务的最佳表现。