视觉语言模型在理解图像变换方面的局限性

Mar, 2025

视觉语言模型在理解图像变换方面的局限性

On the Limitations of Vision-Language Models in Understanding Image Transforms

Ahmad Mustafa Anis, Hasnain Ali, Saquib Sarfraz

TL;DR本研究聚焦于视觉语言模型（VLMs）在理解图像变换中的不足，特别是OpenAI的CLIP和Google的SigLIP模型。这项研究通过创建增强版Flickr8k数据集，揭示了这些模型在理解图像级增强方面存在的缺陷，并探讨了这一不足对下游任务（如图像编辑）的影响。

Abstract

Vision Language Models (VLMs) have demonstrated significant potential in various downstream tasks, including Image/Video Generation, Visual Question Answering, Multimodal Chatbots, and Video Understanding. However, these models often struggle with basic →