预训练视觉-语言模型是否编码对象状态？

Sep, 2024

预训练视觉-语言模型是否编码对象状态？

Do Pre-trained Vision-Language Models Encode Object States?

Kaleb Newman, Shijie Wang, Yuan Zang, David Heffren, Chen Sun

TL;DR本研究针对视觉语言模型（VLM）在理解物理世界方面的不足，探讨其是否能够编码对象的状态。通过构建ChangeIt-Frames数据集并评估多个开源VLM模型，我们发现这些模型在对象识别方面表现良好，但在区分对象物理状态上存在显著不足。本研究提出了改进VLM模型以编码对象状态的三大提升方向，为未来研究提供了重要依据。

Abstract

For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the Temporal Dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims t

发现论文，激发创造

VinVL: 重访视觉表征在视觉语言模型中的应用

本文通过提出一种改进的物体检测模型，生成具有更丰富视觉对象和概念的物体中心表示，从而显着提高了视觉语言任务的性能，并在七个公共基准测试中创造了新的最先进结果。

Jan, 2021

视觉-语言预训练模型综述

本文综述了视觉-语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉-语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

综合、诊断和优化：朝着细粒度的视觉-语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试SPEC。令人惊讶的是，四个领先的VLM在SPEC上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化VLM在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了SPEC的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

分析基于视觉条件的语言模型的设计空间：棱镜式VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

DeepSeek-VL: 实现真实世界的视觉-语言理解

DeepSeek-VL是一个开源的视觉-语言模型，设计用于实际的视觉和语言理解应用，通过多样性数据、基于用户场景的细分以及高效的编码方式来提升模型的用户体验和性能。

Mar, 2024

揭示无编码器的视觉-语言模型

在这项研究中，我们提出了一种简单而有效的训练方法，实现了没有视觉编码器的纯视觉语言模型，并通过桥接视觉语言表示和增强视觉识别能力的策略推出了EVE模型，它在多个视觉语言基准测试中显著优于采用类似容量的基于编码器的VLMs。

Jun, 2024

响应广泛关闭：基本视觉语言模型能力中的惊人观察

本研究旨在揭示当前最先进视觉语言模型（VLMs）在基本视觉任务上的局限性，如物体分类、空间排列理解和物体实例划分。通过构建一系列测试，比较常规性能与特征直接训练的探测器性能，本研究发现了VLMs反应中的新缺陷，提出了改进未来VLM模型的重要见解。

Aug, 2024