Jan, 2024

MouSi:多视觉专家视觉语言模型

TL;DR使用集成专家技术,从不同的视觉编码器中协同能力,通过融合网络统一处理来自不同视觉专家的输出,并解决图像编码器和预训练 LLMs 之间的差距,同时探索不同的位置编码方案以解决位置溢出和长度限制问题,实验证明,具有多个专家的 VLMs 在性能上表现出优势,并随着集成更多专家而显著提升表现。