Sep, 2023

ImageBind-LLM:多模态指令调整

TL;DR我们提出了 ImageBind-LLM,一种通过 ImageBind 进行大型语言模型(LLM)的多模态指令调优方法。我们的方法可以响应多模态条件,包括音频、三维点云、视频以及它们的嵌入空间算术,仅通过图像文本对齐训练。我们的模型表现出卓越的多模态指令跟随能力,并具有显著的语言生成质量。