Apr, 2023

mPLUG-Owl:模块化赋予大型语言模型多模态能力

TL;DR本研究介绍了一种新的培训范式 mPLUG-Owl,该方法通过基于模块化的学习将 Large language models(LLMs)配备了多模态能力。实验表明,通过此方法可以获得多种单模态和多模态能力,包括指导视觉能力、多回合对话和知识推理等,同时出现了一些意想不到且令人兴奋的特性,如多图像相关性和场景文本理解。