Jun, 2022

VL-BEiT: 生成式视觉-语言预训练

TL;DR提出了一种称为VL-BEiT的视觉语言基础模型,使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。