Oct, 2024
视觉-语言模型如何表示空间?在模糊性下评估空间参考框架
Do Vision-Language Models Represent Space and How? Evaluating Spatial
Frame of Reference Under Ambiguities
TL;DR本研究针对视觉-语言模型(VLMs)在空间表达中存在的模糊性问题进行探讨,提出了一种新的评估协议COMFORT,用于系统性评估VLMs的空间推理能力。研究发现,尽管这些模型在某些情况下与英语约定相符,但在鲁棒性、灵活性以及对跨语言测试中的文化特定约定的遵守方面存在显著不足,呼吁对空间推理中的模糊性和跨文化差异给予更多关注。