Aug, 2024

响应广泛关闭:基本视觉语言模型能力中的惊人观察

TL;DR本研究旨在揭示当前最先进视觉语言模型(VLMs)在基本视觉任务上的局限性,如物体分类、空间排列理解和物体实例划分。通过构建一系列测试,比较常规性能与特征直接训练的探测器性能,本研究发现了VLMs反应中的新缺陷,提出了改进未来VLM模型的重要见解。