GPT4GEO：语言模型如何看待世界地理

May, 2023

GPT4GEO：语言模型如何看待世界地理

GPT4GEO: How a Language Model Sees the World's Geography

Jonathan Roberts, Timo Lüddecke, Sowmen Das, Kai Han, Samuel Albanie

TL;DR本篇研究探究 GPT-4 模型应用于地理数据场景问题的解决能力，试图了解其是否具备对地理位置、距离、海拔，以及更复杂的问题如国家轮廓、旅游网络、路线规划和供应链分析的理解和解决能力。结果表明该模型在一定程度上具备对世界的认识，但仍存在限制。

Abstract

large language models (LLMs) have shown remarkable capabilities across a broad range of tasks involving question answering and the generation of coherent text and code. Comprehensively understanding the strengths and weaknesses of LLMs is beneficial for safety, downstream applications

large language models gpt-4 geographic knowledge interpretative reasoning supply chain management

发现论文，激发创造

开拓新领域：探索多模态 LLMs 的地理和地理空间能力

通过进行一系列实验，我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力，重点关注前沿模型 GPT-4V 的视觉能力，并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型，测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点，包括超过人类的性能，并揭示了它们的不足之处，提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估，我们将公开发布我们的基准测试。

Nov, 2023

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

GeoLLM：从大型语言模型中提取地理空间知识

在这篇论文中，我们探讨了机器学习在地理空间预测任务中的应用，提出了一种名为 GeoLLM 的新方法，利用大型语言模型中的地理空间信息和开放街道地图的辅助数据，有效地提取地理空间知识，用于测量人口密度等中心问题，相较于最近邻和直接使用提示信息的基准方法，在多个任务上展现了 70% 的性能提升，并且与卫星数据的基准结果相当甚至超出，证明了大型语言模型在地理空间任务上的可行性和潜力。

Oct, 2023

大型语言模型中判断空间关系的失真：自然语言地理数据的黎明？

我们提出了一个评估大型语言模型（LLM）判断地理位置之间的斜对角方向能力的基准，并将其应用于三个知名的 LLM：GPT-3.5，GPT-4 和 Llama-2。在测试中，GPT-4 表现出优越的性能，准确率为 55.3%，其次是 GPT-3.5 的 47.3%，Llama-2 的 44.7%。尽管这些模型在可能存在层次性偏差的任务上的准确性较低，但它们大多数情况下能够识别最近的基准方向，显示出类似人类的错误理解，我们讨论了直接用代表地理关系的文本数据来改进 LLM 的空间推理能力的潜力。

Jan, 2024

评估大型语言模型的空间理解能力

大型语言模型（LLMs）展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识，即空间关系的表示。通过设计自然语言导航任务，我们评估了 LLMs（特别是 GPT-3.5-turbo，GPT-4 和 Llama2 系列模型）在表示和推理空间结构方面的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构（包括正方形、六边形和三角形网格、环和树形结构）中的表现变异性。我们还发现，类似于人类，LLMs 利用对象名称作为地标来维护空间地图。最后，在广泛的错误分析中，我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明，LLMs 似乎能够隐含地捕捉到空间结构的某些方面，但仍有改进空间。

Oct, 2023

多模态基础模型在地理、环境、农业和城市规划应用中的承诺与挑战

GPT-4V 在地理学、农业和城市规划领域的绩效评估中展现出潜力，但在一些需要细粒度识别和精确计数的任务中存在局限性。

Dec, 2023

评估大型语言模型在几何和空间关系的文本描述中的有效性

研究使用大型语言模型（LLMs）对几何形状及其空间关系进行表示的能力，并使用 GPT-2 和 BERT 等 LLMs 对几何形状的文本（WKT）格式进行编码，然后将其嵌入分类器和回归器中评估 LLMs 生成的嵌入表示对几何属性的效果。实验证明，尽管 LLMs 生成的嵌入可以保留几何类型并捕捉一些空间关系（准确率高达 73%），但在估计数值和检索空间相关对象方面仍存在挑战。此研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识以支持各种基于 GeoAI 应用的需要改进的重要性。

Jul, 2023

关于空间信息的 LLM 固有限制

该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制，并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。

Dec, 2023

CityGPT：大型语言模型赋能城市空间认知

CityGPT 是一种用于增强大型语言模型在理解城市空间和解决相关城市任务方面能力的系统框架，通过在模型中构建城市规模的世界模型，并使用包含城市知识的多样化指令调整数据集 CityInstruction 来进行模型微调，实现对城市空间的理解和空间推理能力的有效增强。

Jun, 2024

GeoLM：地理空间语言理解模型的增强

GeoLM 是一个地理信息语言模型，通过连接文本语料库中的语言信息和来自地理数据库的地理信息，利用对比学习和遮蔽语言建模的方法，结合空间坐标嵌入机制来捕捉地理空间上下文，从而提升自然语言中的地理实体的理解能力。实验证明 GeoLM 在地名识别、地名链接、关系提取和地理实体类型等方面具有良好的能力，弥合了自然语言处理和地理空间科学之间的差距。

Oct, 2023