May, 2024

Xmodel-VLM: 一个简单的多模态视觉语言模型基准

TL;DR我们介绍了 Xmodel-VLM,这是一款先进的多模态视觉语言模型,旨在在消费级 GPU 服务器上进行高效部署。我们的工作直接应对了一个关键行业问题,即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练,我们从头开始开发了一个 10 亿级的语言模型,采用了 LLaVA 模式用于模态对齐。结果是,我们称之为 Xmodel-VLM 的模型,它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试,我们发现尽管模型体积较小且执行速度更快,但 Xmodel-VLM 的性能与较大模型相当。我们的模型检查点和代码公开在 GitHub 上提供。