Apr, 2025

视觉语言模型在简单空间认知中不可靠

TL;DR本研究针对视觉语言模型在处理简单空间认知(如识别物体相对位置)方面的不足,通过开发名为TableTest的基准数据集对当前主流模型的可靠性进行测试。研究发现,逻辑等效描述的轻微变化即可显著降低模型的表现,这揭示了VLM在现实应用中推理空间关系的局限性,同时为图像描述语料库的改进提供了新机会。