Oct, 2023

评估大型语言模型的空间理解能力

TL;DR大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了LLMs(特别是GPT-3.5-turbo,GPT-4和Llama2系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现LLMs的错误反映了空间和非空间因素。这些发现表明,LLMs似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。