May, 2024
语言模型中的空间推理评估重新构架: 定性推理的现实世界模拟基准
Reframing Spatial Reasoning Evaluation in Language Models: A Real-World
Simulation Benchmark for Qualitative Reasoning
TL;DR我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。