在空间任务上评估大型语言模型:多任务基准研究
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了LLMs(特别是GPT-3.5-turbo,GPT-4和Llama2系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现LLMs的错误反映了空间和非空间因素。这些发现表明,LLMs似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
通过进行一系列实验,我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力,重点关注前沿模型GPT-4V的视觉能力,并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型,测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点,包括超过人类的性能,并揭示了它们的不足之处,提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估,我们将公开发布我们的基准测试。
Nov, 2023
人工智能在许多领域取得了显著进展,类似ChatGPT这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而,空间推理仍然是这些模型面临的重大挑战。本研究通过改进StepGame基准测试,提供了更准确的数据集用于模型评估,并分析了GPT在修正后的基准测试上的空间推理性能。我们发现GPT在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合,提供了基准测试的完美解决方案,可以在StepGame上进行定性推理而不会出现任何错误。此外,我们还针对GPT模型在空间推理方面的局限性进行了改进,采用了连续思考和思维树提示策略,在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处,还提出了增强措施,为具备更强大空间推理能力的人工智能的进展做出了贡献。
Jan, 2024
我们提出了一个评估大型语言模型(LLM)判断地理位置之间的斜对角方向能力的基准,并将其应用于三个知名的LLM:GPT-3.5,GPT-4和Llama-2。在测试中,GPT-4表现出优越的性能,准确率为55.3%,其次是GPT-3.5的47.3%,Llama-2的44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低,但它们大多数情况下能够识别最近的基准方向,显示出类似人类的错误理解,我们讨论了直接用代表地理关系的文本数据来改进LLM的空间推理能力的潜力。
Jan, 2024
通过数据处理和深度信息集成,Spatial Region GPT(SpatialRGPT)提升了Vision Language Models(VLMs)的空间感知和推理能力,并且在空间推理任务中显著提高了性能。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
本研究提出了PLUGH基准,旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务,研究发现尽管某些商业模型表现优异,开源模型也能够接近同等水平,但仍存在显著改进空间。研究还识别了LLM失败的典型原因,并探讨了应对策略。
Aug, 2024
本研究针对当前大型语言模型在空间任务上的评估缺乏进行深入探讨,提出了一套新颖的多任务空间评估数据集,系统比较多种模型的性能。研究发现,gpt-4o在总体准确度上表现最佳,而不同的提示策略对模型在特定任务的表现有显著影响,如COT策略在路径规划任务中将gpt-4o的准确率提升至87.5%。
Aug, 2024
本研究解决了大型语言模型在空间任务上评估不足的问题,介绍了一种新的多任务空间评估数据集,系统地探索和比较多种先进模型的表现。研究发现,gpt-4o在总体准确性上表现最佳,平均准确率为71.3%,而特定提示策略显著提高了模型在某些任务中的表现。
Aug, 2024