ACLJun, 2024

EmbSpatial-Bench:基于大型视觉 - 语言模型的空间理解能力基准评估

TL;DR近期大型视觉 - 语言模型(LVLMs)的快速发展表明它们在具体任务中的潜力,然而,目前的 LVLMs 在具体环境中的空间理解能力尚未得到充分评估,这使得当前 LVLMs 与合格的具体智能之间存在未知差距。为此,我们构建了 EmbSpatial-Bench,这是一个用于评估 LVLMs 具体空间理解能力的基准测试。该基准测试是从具体场景自动衍生而来的,涵盖了从个体视角出发的 6 种空间关系。实验证明了研究结果,即当前的 LVLMs(甚至包括 GPT-4V)的容量不足,我们进一步提出了 EmbSpatial-SFT,这是一个旨在提高 LVLMs 具体空间理解能力的指导调优数据集。