Feb, 2023

mPLUG-2:跨文本、图像和视频的模块化多模态基础模型

TL;DR该论文提出了一种新的多模态预训练统一范式 mPLUG-2,该范式具有模块化设计和通用模块的共享,可以处理多种任务,包括文本,图像和视频的多模态理解和生成,达到了最先进的结果。