Feb, 2024

MobileVLM V2:视觉语言模型的更快、更强基准

TL;DRMobileVLM V2 是在 MobileVLM 的基础上进行显著改进的一系列视觉语言模型,证明了新颖的结构设计、为移动 VLM 量身定制的改进训练方案和优质数据集的精心策划可以显著提高 VLM 的性能。特别是,MobileVLM V2 1.7B 在标准 VLM 基准测试中实现了与规模更大的 3B VLM 相当或更好的性能。值得注意的是,我们的 3B 模型在 7B + 规模的许多 VLM 中表现优秀。我们的模型将在此网址发布。