Jan, 2023

构建通用的语言、视觉和视觉语言理解任务的基础模型

TL;DR本文介绍了一种新的通用的基础模型 X-FM,它能够处理语言、视觉和视觉与语言的理解任务,并且在多个基准数据集上表现出比现有的通用模型更好的性能。