Mar, 2025

视觉语言模型在理解图像变换方面的局限性

TL;DR本研究聚焦于视觉语言模型(VLMs)在理解图像变换中的不足,特别是OpenAI的CLIP和Google的SigLIP模型。这项研究通过创建增强版Flickr8k数据集,揭示了这些模型在理解图像级增强方面存在的缺陷,并探讨了这一不足对下游任务(如图像编辑)的影响。