Jan, 2024

大型语言模型中判断空间关系的失真:自然语言地理数据的黎明?

TL;DR我们提出了一个评估大型语言模型(LLM)判断地理位置之间的斜对角方向能力的基准,并将其应用于三个知名的 LLM:GPT-3.5,GPT-4 和 Llama-2。在测试中,GPT-4 表现出优越的性能,准确率为 55.3%,其次是 GPT-3.5 的 47.3%,Llama-2 的 44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低,但它们大多数情况下能够识别最近的基准方向,显示出类似人类的错误理解,我们讨论了直接用代表地理关系的文本数据来改进 LLM 的空间推理能力的潜力。