Feb, 2024

SPHINX-X:一个多模态大型语言模型系列的数据和参数扩展

TL;DR我们提出了 SPHINX-X,这是一个建立在 SPHINX 基础上的广泛的多模态大型语言模型系列。通过去除冗余的视觉编码器、利用跳过标记绕过全填充子图像,以及简化多阶段训练为一阶段的所有合一范式,我们改进了 SPHINX 框架的架构和训练效率。为了充分发挥多模态大型语言模型的潜力,我们组装了一个包括语言、视觉和视觉 - 语言任务中公开可用资源的全面多领域和多模态数据集。我们进一步通过我们精心策划的 OCR 密集和一系列标记数据集丰富了这个收集,扩展了多样性和普适性。通过在不同的基础 LLM 上进行训练,包括 TinyLlama1.1B、InternLM2-7B、LLaMA2-13B 和 Mixtral8x7B,我们获得了一系列参数大小和多语言能力各不相同的 MLLM。全面的基准测试显示,多模态性能与数据和参数规模之间存在着强烈的相关性。代码和模型已在此 URL 发布。