Nov, 2024

多模态大型语言模型中的跨模态信息流

TL;DR本研究解决了多模态大型语言模型(MLLMs)中语言信息与视觉信息互动机制不明的空白,重点分析了视觉问答中的信息流。通过对LLaVA系列模型的实验,我们发现信息整合过程中存在两个明显阶段,最终为图像和语言处理提供了新的视角,促进了对多模态信息定位和编辑的未来研究。