Feb, 2024

认知视觉语言映射器:通过增强视觉知识对齐推进多模态理解

TL;DR在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如 Q-former 或 MLP),发现它们侧重于图像 - 文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型,特别关注知识型视觉问题回答。为此,我们提出了一个认知视觉语言映射器(CVLM),包含一个预训练的视觉知识对齐器(VKA)和一个用于多模态指令调整阶段的细粒度知识适配器(FKA)。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明,CVLM 显著提高了 LMM 在知识型视觉问题回答上的性能(平均提升 5%),消融研究也验证了 VKA 和 FKA 的有效性。