BriefGPT.xyz
Nov, 2024
多模态大型语言模型中的跨模态信息流
Cross-modal Information Flow in Multimodal Large Language Models
HTML
PDF
Zhi Zhang, Srishti Yadav, Fengze Han, Ekaterina Shutova
TL;DR
本研究解决了多模态大型语言模型(MLLMs)中语言信息与视觉信息互动机制不明的空白,重点分析了视觉问答中的信息流。通过对LLaVA系列模型的实验,我们发现信息整合过程中存在两个明显阶段,最终为图像和语言处理提供了新的视角,促进了对多模态信息定位和编辑的未来研究。
Abstract
The recent advancements in auto-regressive
multimodal
large
language models
(MLLMs) have demonstrated promising progress for vision-language tasks. While there exists a variety of studies investigating the proces
→