Nov, 2021
VLMo:混合模态专家的统一视觉语言预训练
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed...
TL;DR本研究提出了统一的视觉 - 语言预训练模型 (VLMo),通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明,VLMo 在各种视觉 - 语言任务中取得了最先进的结果。