Jun, 2022

统一输入输出:视觉、语言和多模态任务的统一模型

TL;DRUnified-IO 是一种模型,它可以执行各种人工智能任务,包括传统的计算机视觉任务、视觉与语言任务和自然语言处理任务,通过将每个任务的异构输入和输出转换为离散词汇令其有共同的表示方式,从而实现使用一个单一的基于 transformer 的架构,针对视觉和语言领域的 90 多个不同数据集联合训练,其能够在诸如 NYUv2-Depth、ImageNet、VQA2.0 等 16 个不同基准测试中产生强大的结果,这是第一个不需要针对特定任务进行微调即可执行所有 7 个 GRIT 基准任务的模型。