响应广泛关闭：基本视觉语言模型能力中的惊人观察

Aug, 2024

响应广泛关闭：基本视觉语言模型能力中的惊人观察

Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities

Shivam Chandhok, Wan-Cyuan Fan, Leonid Sigal

TL;DR本研究旨在揭示当前最先进视觉语言模型（VLMs）在基本视觉任务上的局限性，如物体分类、空间排列理解和物体实例划分。通过构建一系列测试，比较常规性能与特征直接训练的探测器性能，本研究发现了VLMs反应中的新缺陷，提出了改进未来VLM模型的重要见解。

Abstract

Vision-Language Models (VLMs) have emerged as general purpose tools for addressing a variety of complex computer vision problems. Such models have been shown to be highly capable, but, at the same time, also lacking some basic →

发现论文，激发创造

MiniVLM: 一个更小更快的视觉语言模型

本文提出MiniVLM，一个轻量、快速的视觉-语言模型，采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比，模型大小减少73％，推理时间成本降低94％，在多个视觉-语言任务上准确率保持94-97％。希望MiniVLM可以用于边缘应用。

Dec, 2020

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

构建视觉-语言模型时的要点

基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在VLMs设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于这些实验结果，我们开发了一个8亿参数的高效基础VLM模型

May, 2024

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

揭示无编码器的视觉-语言模型

在这项研究中，我们提出了一种简单而有效的训练方法，实现了没有视觉编码器的纯视觉语言模型，并通过桥接视觉语言表示和增强视觉识别能力的策略推出了EVE模型，它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的VLMs。

Jun, 2024

视觉语言模型的失明

利用大型语言模型嵌入视觉功能的研究表明，当前最先进的模型在一些简单的视觉任务上表现严重不足，其视觉能力相当于近视者模糊地看到细节，甚至盲人也可以进行有根据的猜测。

Jul, 2024

在视觉大模型中，增大编码器是否总是更好？

本研究针对视觉语言模型（VLM）在扩大规模时的性能表现进行探讨。论文指出，仅仅增大编码器的规模并不一定能提升VLM的性能，同时分析了大型语言模型（LLM）的参数规模和数据质量对预训练结果的影响。这些发现对理解VLMs与LLMs之间的规模法则差异具有重要意义。

Aug, 2024

预训练视觉-语言模型是否编码对象状态？

本研究针对视觉语言模型（VLM）在理解物理世界方面的不足，探讨其是否能够编码对象的状态。通过构建ChangeIt-Frames数据集并评估多个开源VLM模型，我们发现这些模型在对象识别方面表现良好，但在区分对象物理状态上存在显著不足。本研究提出了改进VLM模型以编码对象状态的三大提升方向，为未来研究提供了重要依据。

Sep, 2024

视觉语言模型的眼科检查：指导与检测视觉能力

本研究针对视觉语言模型（VLMs）在视觉感知方面的理解不足，提出了一种眼科检查方法，以评估VLM对图像的感知能力。研究发现VLM对不同颜色的敏感性存在差异，尤其对绿色表现出普遍的不敏感，表明VLM的设计与输入处理有潜力改善其在应用中的表现。

Sep, 2024