Dec, 2023

MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手

TL;DR我们提出了MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的1.4B和2.7B参数规模的语言模型,以及使用CLIP风格预训练的多模式视觉模型,通过高效的投影实现跨模态交互。我们在几个典型的VLM基准测试上评估了MobileVLM。与一些更大的模型相比,我们的模型表现出与之相当的性能。更重要的是,我们在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上测量了推断速度,分别获得了21.5个token和65.3个token每秒的最新性能。我们的代码将在此https URL上提供。