Dec, 2023

生成多模态模型是上下文学习者

TL;DR我们展示了一个 37 亿参数的生成式多模态模型 Emu2,通过在大规模多模态序列上训练,使模型具备了强大的多模态上下文学习能力,甚至能够解决需要实时推理的任务,如视觉提示和目标驱动生成。该模型在少样本情况下刷新了多个多模态理解任务的记录,并在指令调整后在问题回答和主题驱动生成等挑战性任务上达到了最新的最高水平。这些成就表明 Emu2 可以作为一个基准模型和广泛应用于各种多模态任务的通用接口。