Jun, 2024

探索全模态大规模预训练的极限

TL;DR我们提出了建立全模态智能的方法,能够理解任何模态并学习通用表示。通过提出一种可扩展的预训练模式 —— 多模态上下文(MiCo),我们能够在预训练过程中扩大模态数量、数据量和模型参数。MiCo 预训练模型在多模态学习中展现出重要的新能力,并在 10 种不同模态的单一模态感知基准、25 种跨模态理解任务(包括检索、问答、字幕生成)和 18 种多模态大型语言模型基准上获得了 37 项最新成果记录。我们希望我们的研究能够为全模态智能的发展做出贡献。