MobileVLM V2：视觉语言模型的更快、更强基准

Feb, 2024

MobileVLM V2：视觉语言模型的更快、更强基准

MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

Xiangxiang Chu, Limeng Qiao, Xinyu Zhang, Shuang Xu, Fei Wei...

TL;DRMobileVLM V2 是在 MobileVLM 的基础上进行显著改进的一系列视觉语言模型，证明了新颖的结构设计、为移动 VLM 量身定制的改进训练方案和优质数据集的精心策划可以显著提高 VLM 的性能。特别是，MobileVLM V2 1.7B 在标准 VLM 基准测试中实现了与规模更大的 3B VLM 相当或更好的性能。值得注意的是，我们的 3B 模型在 7B + 规模的许多 VLM 中表现优秀。我们的模型将在此网址发布。

Abstract

We introduce mobilevlm v2, a family of significantly improved vision language models upon MobileVLM, which proves that a delicate orchestration of novel architectural design, an improved →

mobilevlm v2 vision language models architectural design training scheme high-quality dataset curation

发现论文，激发创造

MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手

我们提出了 MobileVLM，这是一个专为移动设备设计的多模式视觉语言模型（MMVLM）。它集成了各种移动设备定向的架构设计和技术，包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型，以及使用 CLIP 风格预训练的多模式视觉模型，通过高效的投影实现跨模态交互。我们在几个典型的 VLM 基准测试上评估了 MobileVLM。与一些更大的模型相比，我们的模型表现出与之相当的性能。更重要的是，我们在高通骁龙 888 CPU 和 NVIDIA Jeston Orin GPU 上测量了推断速度，分别获得了 21.5 个 token 和 65.3 个 token 每秒的最新性能。我们的代码将在此 https URL 上提供。

Dec, 2023

Xmodel-VLM: 一个简单的多模态视觉语言模型基准

我们介绍了 Xmodel-VLM，这是一款先进的多模态视觉语言模型，旨在在消费级 GPU 服务器上进行高效部署。我们的工作直接应对了一个关键行业问题，即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练，我们从头开始开发了一个 10 亿级的语言模型，采用了 LLaVA 模式用于模态对齐。结果是，我们称之为 Xmodel-VLM 的模型，它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试，我们发现尽管模型体积较小且执行速度更快，但 Xmodel-VLM 的性能与较大模型相当。我们的模型检查点和代码公开在 GitHub 上提供。

May, 2024

构建视觉 - 语言模型时的要点

基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在 VLMs 设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于这些实验结果，我们开发了一个 8 亿参数的高效基础 VLM 模型

May, 2024

MiniVLM: 一个更小更快的视觉语言模型

本文提出 MiniVLM，一个轻量、快速的视觉 - 语言模型，采用 two-stage efficient feature extractor 和 MiniLM 结构。MiniVLM 与大型模型相比，模型大小减少 73％，推理时间成本降低 94％，在多个视觉 - 语言任务上准确率保持 94-97％。希望 MiniVLM 可以用于边缘应用。

Dec, 2020

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

PaLI-3 视觉语言模型：更小、更快、更强

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

Oct, 2023

训练一种视觉语言模型作为智能手机助手

利用大型语言模型和视觉语言模型，我们的研究致力于解决数字助理执行各种用户任务的挑战，特别是在基于指令的移动设备控制领域。通过与用户界面进行交互，我们的模型利用设备屏幕的视觉输入并模拟人类般的交互，包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是，我们的模型不仅仅操作单个屏幕图像，还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。

Apr, 2024

VisionLLM v2：一种适用于数百种视觉语言任务的端到端通用多模态大语言模型

VisionLLM v2 是一种端到端的多模态大型模型，它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器，以实现灵活的任务信息传输和梯度反馈，并在多任务场景中解决训练冲突，并通过不同的用户提示实现对多种视觉语言任务的端到端联合训练和泛化，达到与特定任务模型相当的性能。

Jun, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022