Oct, 2024
单一内部视觉模型:推动内生视觉预训练的单一多模态大型语言模型的边界
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large
Language Models with Endogenous Visual Pre-training
TL;DR本研究解决了单一多模态大型语言模型(MLLM)在集成视觉编码与语言解码的过程中面临的训练困难,尤其是灾难性遗忘的问题。提出了Mono-InternVL模型,通过在预训练语言模型中嵌入视觉参数并采用内生视觉预训练策略,显著提升了模型的视觉能力和部署效率,实验结果显示该模型在多个基准上优于现有最先进的MLLM。