Aug, 2023

EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练

TL;DR本文介绍了一种高效的视觉 - 语言基础模型 EVE,该模型通过一个统一的预训练任务,在共享的 Transformer 网络中编码了视觉和语言,并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模,EVE 实现了图像像素和文本标记的信号重构,从而达到快速训练和更好的下游性能。