Jan, 2024

多模态 LLM 的视觉缺陷探究

TL;DR通过对 CLIP 模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与 MLLMs 相结合,显著提高了它们的视觉基础能力,从而表明视觉表示学习仍然是一个待解决的问题,并且准确的视觉基础对于未来成功的多模态系统至关重要。