Jun, 2023

Macaw-LLM:多模态语言模型与图像、音频、视频和文本混合

TL;DR本研究提出 Macaw-LLM,一种新型的多模式学习模型,可以无缝整合视觉、音频和文本信息,其中主要包括三个模块:一种用于编码多模式数据的模态模块,一种利用预训练 LLM 的认知模块,和一种用于协调多样化表示形式的对齐模块,并在此基础上构建了一个大规模的多模式指令数据集以应对复杂的实际场景。