本文提出MiniVLM,一个轻量、快速的视觉-语言模型,采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比,模型大小减少73%,推理时间成本降低94%,在多个视觉-语言任务上准确率保持94-97%。希望MiniVLM可以用于边缘应用。
Dec, 2020
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
基于大语言模型和视觉变换的视觉语言模型(VLMs)的增长兴趣,我们观察到在VLMs设计中往往存在未经支持的决策,这使得很难确定哪些选择能够提高模型性能,为了解决这个问题,我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验,基于这些实验结果,我们开发了一个8亿参数的高效基础VLM模型
May, 2024
扩展到视觉领域的大型语言模型(LLMs)的应用将显著影响我们与技术的关系,但需要解决一些可靠性挑战。本文介绍了视觉语言模型(VLM)以及其工作原理、训练方法和评估方法,并讨论了将其扩展到视频领域的问题。
在这项研究中,我们提出了一种简单而有效的训练方法,实现了没有视觉编码器的纯视觉语言模型,并通过桥接视觉语言表示和增强视觉识别能力的策略推出了EVE模型,它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的VLMs。
Jun, 2024
利用大型语言模型嵌入视觉功能的研究表明,当前最先进的模型在一些简单的视觉任务上表现严重不足,其视觉能力相当于近视者模糊地看到细节,甚至盲人也可以进行有根据的猜测。
Jul, 2024
本研究针对视觉语言模型(VLM)在扩大规模时的性能表现进行探讨。论文指出,仅仅增大编码器的规模并不一定能提升VLM的性能,同时分析了大型语言模型(LLM)的参数规模和数据质量对预训练结果的影响。这些发现对理解VLMs与LLMs之间的规模法则差异具有重要意义。
Aug, 2024
本研究针对视觉语言模型(VLM)在理解物理世界方面的不足,探讨其是否能够编码对象的状态。通过构建ChangeIt-Frames数据集并评估多个开源VLM模型,我们发现这些模型在对象识别方面表现良好,但在区分对象物理状态上存在显著不足。本研究提出了改进VLM模型以编码对象状态的三大提升方向,为未来研究提供了重要依据。
Sep, 2024
本研究针对视觉语言模型(VLMs)在视觉感知方面的理解不足,提出了一种眼科检查方法,以评估VLM对图像的感知能力。研究发现VLM对不同颜色的敏感性存在差异,尤其对绿色表现出普遍的不敏感,表明VLM的设计与输入处理有潜力改善其在应用中的表现。