Mini-InternVL:一个灵活传输的口袋多模态模型,参数仅占5%且性能达90%
本文提出MiniVLM,一个轻量、快速的视觉-语言模型,采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比,模型大小减少73%,推理时间成本降低94%,在多个视觉-语言任务上准确率保持94-97%。希望MiniVLM可以用于边缘应用。
Dec, 2020
基于大型语言模型和视觉基础模型的多模态人工智能系统在实时感知、决策和工具控制方面与人类相似,并在自动驾驶和地图系统中引起广泛关注。本文对多模态大型语言模型驱动系统的关键挑战、机会和未来工作进行了系统研究,概述了多模态大型语言模型的背景、发展以及自动驾驶的历史,并总结了在自动驾驶中使用多模态大型语言模型的工具、数据集和基准,同时介绍了第一届大型语言和视觉模型自动驾驶研讨会的相关工作,提出了使用多模态大型语言模型在自动驾驶系统中需要解决的若干重要问题,并呼吁学术界和工业界共同促进该领域的发展。
Nov, 2023
通过设计大规模的视觉语言基础模型 (InternVL),其参数规模扩展到60亿,并逐步与大型语言模型对齐,该研究旨在推动视觉与视觉语言基础模型的发展与应用,以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。
Dec, 2023
我们提出了MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的1.4B和2.7B参数规模的语言模型,以及使用CLIP风格预训练的多模式视觉模型,通过高效的投影实现跨模态交互。我们在几个典型的VLM基准测试上评估了MobileVLM。与一些更大的模型相比,我们的模型表现出与之相当的性能。更重要的是,我们在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上测量了推断速度,分别获得了21.5个token和65.3个token每秒的最新性能。我们的代码将在此https URL上提供。
Dec, 2023
在先进的多模式学习时代,本文介绍了TinyGPT-V这一低计算资源需求的多模式大型语言模型,通过小型骨干网络实现了高效的语言-视觉交互,为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。
Dec, 2023
在本文中,我们研究了Multimodal Small Language Models(MSLMs)的设计方面,并提出了一种高效的多模态助手Mipha,旨在在视觉表示、语言模型和优化策略等各个方面产生协同效应。我们展示了在不增加训练数据量的情况下,我们的Mipha-3B在多个基准测试中表现优于最先进的大型MLLMs,尤其是LLaVA-1.5-13B。通过详细讨论,我们提供了开发强大的MSLMs以与MLLMs能力匹敌的见解和指南。
Mar, 2024
InternVL 1.5是一种开源的多模态大型语言模型,通过引入强大的视觉编码器、动态高分辨率和高质量双语数据集三个简单改进,提升了多模态理解的能力,在OCR和中文相关任务中达到与传统型和专有模型相竞争的性能。
Apr, 2024
我们介绍了Xmodel-VLM,这是一款先进的多模态视觉语言模型,旨在在消费级GPU服务器上进行高效部署。我们的工作直接应对了一个关键行业问题,即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练,我们从头开始开发了一个10亿级的语言模型,采用了LLaVA模式用于模态对齐。结果是,我们称之为Xmodel-VLM的模型,它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试,我们发现尽管模型体积较小且执行速度更快,但Xmodel-VLM的性能与较大模型相当。我们的模型检查点和代码公开在GitHub上提供。
May, 2024
本研究针对当前多模态大语言模型在视觉-语言任务中的表现不足,提出了NVLM 1.0系列模型,显著提升了该领域的性能。通过综合比较现有模型,提出了一种新架构,优化了训练效率及多模态推理能力。研究表明,数据集质量和任务多样性重于规模,推动了视觉-语言任务的研究进展。
Sep, 2024
本研究解决了单一多模态大型语言模型(MLLM)在集成视觉编码与语言解码的过程中面临的训练困难,尤其是灾难性遗忘的问题。提出了Mono-InternVL模型,通过在预训练语言模型中嵌入视觉参数并采用内生视觉预训练策略,显著提升了模型的视觉能力和部署效率,实验结果显示该模型在多个基准上优于现有最先进的MLLM。
Oct, 2024