VL-BEiT: 生成式视觉-语言预训练

Jun, 2022

VL-BEiT: Generative Vision-Language Pretraining

Hangbo Bao, Wenhui Wang, Li Dong, Furu Wei

TL;DR提出了一种称为VL-BEiT的视觉语言基础模型，使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Abstract

We introduce a vision-language foundation model called vl-beit, which is a bidirectional multimodal →