BriefGPT.xyz
Ask
alpha
关键词
multi-modal instruction dataset
搜索结果 - 1
Macaw-LLM:多模态语言模型与图像、音频、视频和文本混合
本研究提出 Macaw-LLM,一种新型的多模式学习模型,可以无缝整合视觉、音频和文本信息,其中主要包括三个模块:一种用于编码多模式数据的模态模块,一种利用预训练 LLM 的认知模块,和一种用于协调多样化表示形式的对齐模块,并在此基础上构建
→
PDF
a year ago
Prev
Next