Jul, 2023

多模态生成预训练

TL;DR本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型,它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练,将任何单模态或多模态数据输入混合 (例如,交错的图像、文本和视频),并表现得十分出色。