May, 2022

通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG

TL;DRmPLUG 是一个新的视觉语言基础模型,通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题,通过对大规模图像 - 文本对的端到端预训练,具有良好的视觉和语言能力,并在图像字幕生成、图像 - 文本检索、视觉定位和视觉问答等一系列视觉语言场景下实现了最先进的结果,并且具有很强的零样本学习能力。