Sep, 2023

多模态基础模型:从专家到通用助手

TL;DR本文综述了多模基础模型的分类和演变,重点关注从专业模型到通用助手的转变。研究领域包括两个核心主题:(i) 针对特定目的预训练的多模基础模型,包括学习视觉骨干进行视觉理解和文本到图像生成的方法;(ii) 旨在充当通用助手的多模基础模型的最新进展,包括受大型语言模型启发的统一视觉模型、多模语言模型的端到端训练以及将多模工具与语言模型相结合的方法。本文面向计算机视觉和视觉语言多模社区的研究人员、研究生和专业人士,他们渴望了解多模基础模型的基础知识和最新进展。