Mar, 2025

视觉-语言模型在理解图像变换中的局限性

TL;DR本研究探讨了视觉语言模型(VLMs)在图像层面理解中的不足,尤其是对基本图像变换的理解缺失。我们揭示了这一缺陷如何影响后续任务,如图像编辑,并评估了当前最先进的图像转图像模型在简单变换上的表现。