Jan, 2024
融入视觉专家解决多模态大语言模型中的信息损失
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
Xin He, Longhui Wei, Lingxi Xie, Qi Tian
TL;DR这篇论文提出了一种通过专家混合知识增强机制来改善多模态大型语言模型 (MLLMs) 的视觉感知能力的方法,并通过集成视觉专家实现了视觉输入的更全面准确的概括,进一步提升了 MLLMs 的视觉感知能力。