Dec, 2023

统一 IO 2:使用视觉、语言、音频和动作扩展自回归多模态模型

TL;DR我们提出了 Unified-IO 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。通过将输入和输出(图像、文本、音频、动作和边界框等)进行分词,在共享语义空间中统一不同的模态,并使用单个编码器 - 解码器变换器模型进行处理。通过从多样化来源的大型多模态预训练语料库中使用多模态混合去噪目标对模型进行从头训练,我们提出了各种架构改进来稳定模型训练。为了学习广泛的技能,如遵循多模态指令,我们构建并在包含提示和增强的 120 个数据集的集合上进行微调。通过一个统一的模型,Unified-IO 2 在 GRIT 基准测试中实现了最先进的性能,并在超过 35 个基准测试中取得了强大的结果,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操控。我们将所有模型发布给研究社区。