Jan, 2024

融入视觉专家解决多模态大语言模型中的信息损失

TL;DR这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。