Dec, 2023

蜜蜂:局部增强的多模态 LLM 投影仪

TL;DR在本研究中,我们首先确定了两个关键的可视化投影仪属性:(i) 在管理视觉令牌数量方面的灵活性,关键是为了提高 MLLMs 的整体效率;(ii) 保留来自视觉特征的局部上下文,对于空间理解至关重要。基于这些发现,我们提出了一种新颖的投影仪设计,既具有灵活性又具有增强局部特征的能力,实现了这两个理想属性。此外,我们提出了综合的策略,以有效利用多种多样的指导数据集。通过广泛的实验证明了个别设计选择的影响。最后,我们提出的 MLLM 模型 Honeybee 在多个基准测试中显著优于先前的最先进方法,包括 MME、MMBench、SEED-Bench 和 LLaVA-Bench,实现了显著更高的效率。代码和模型可在此链接中获取。