BriefGPT.xyz
Jun, 2022
VL-BEiT: 生成式视觉-语言预训练
VL-BEiT: Generative Vision-Language Pretraining
HTML
PDF
Hangbo Bao, Wenhui Wang, Li Dong, Furu Wei
TL;DR
提出了一种称为VL-BEiT的视觉语言基础模型,使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。
Abstract
We introduce a
vision-language
foundation model called
vl-beit
, which is a bidirectional
multimodal
→