Aug, 2024

鹰:探索具有编码器混合的多模态大型语言模型的设计空间

TL;DR本研究针对多模态大型语言模型(MLLMs)中复杂视觉信息解读的不足,提出了一种新颖的设计空间探索方法,强调编码器的组合与解析度。研究发现,通过简单地连接来自互补视觉编码器的视觉标记,能够与更复杂的组合结构一样有效,同时引入的预对齐技术有助于提升模型一致性,使得新模型鹰在主要基准测试中表现优于其他开源模型。