CVPRMar, 2023

MAGVLT: 遮盖式生成式视觉与语言转换器

TL;DR本篇论文提出了一种基于变压器的联合视觉与语言模型,名为 MAGVLT,它可以生成图像和文本序列,并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明,MAGVLT 可以在零样本情况下使用较小的模型(少于 500M 参数)在 MS-COCO 数据集上取得很好的成果。