Nov, 2021

VLMo:混合模态专家的统一视觉语言预训练

TL;DR本研究提出了统一的视觉 - 语言预训练模型 (VLMo),通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明,VLMo 在各种视觉 - 语言任务中取得了最先进的结果。