自然语言模型中地理表现的缩放规律

COLINGFeb, 2024

自然语言模型中地理表现的缩放规律

On the Scaling Laws of Geographical Representation in Language Models

Nathan Godey, Éric de la Clergerie, Benoît Sagot

TL;DR扩展大型语言模型 (LLM) 到研究结果，观察语言模型在扩展时地理知识是如何演变的，并显示较大的语言模型不能消除训练数据中固有的地理偏见。

Abstract

language models have long been shown to embed geographical information in their hidden representations. This line of work has recently bee

language models geographical information hidden representations geographical knowledge training data

发现论文，激发创造

大型语言模型存在地理偏见

通过地理学角度研究大型语言模型的地理知识，展示其在地理空间预测中存在的问题性地理偏差，并 quantifies 目前大型语言模型的偏差程度。

Feb, 2024

大型语言模型具备地理空间知识吗？

该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力，通过三个实验验证结论，表明合成地理空间知识需要更大规模和更复杂的语言模型，并且对于处理地理空间信息，大型语言模型的潜力和局限性值得研究。

Oct, 2023

语言模型的地理和地缘政治偏差

本文提出了一种地理表示探究框架，通过自我条件方法和实体 - 国家映射研究了 PLMs 中存在的地理偏见和知识，发现尽管 PLMs 的表示与物理世界的各个国家的关联性惊人地契合，但这种知识在不同语言中分享程度却有所不同，同时说明了大型 PLMs 虽然表现出了地理接近度的概念，但在推断时会过度放大地缘政治偏好。

Dec, 2022

GeoLLM：从大型语言模型中提取地理空间知识

在这篇论文中，我们探讨了机器学习在地理空间预测任务中的应用，提出了一种名为 GeoLLM 的新方法，利用大型语言模型中的地理空间信息和开放街道地图的辅助数据，有效地提取地理空间知识，用于测量人口密度等中心问题，相较于最近邻和直接使用提示信息的基准方法，在多个任务上展现了 70% 的性能提升，并且与卫星数据的基准结果相当甚至超出，证明了大型语言模型在地理空间任务上的可行性和潜力。

Oct, 2023

GPT4GEO：语言模型如何看待世界地理

本篇研究探究 GPT-4 模型应用于地理数据场景问题的解决能力，试图了解其是否具备对地理位置、距离、海拔，以及更复杂的问题如国家轮廓、旅游网络、路线规划和供应链分析的理解和解决能力。结果表明该模型在一定程度上具备对世界的认识，但仍存在限制。

May, 2023

评估语言模型中的地理扭曲：迈向公平表达的关键一步

研究语言模型中的地理偏见，通过比较地理和语义距离，提出四个指标来评估这些偏见，结果强调了检查和纠正语言模型的空间偏见对于确保准确和公平的表达是至关重要的。

Apr, 2024

语言生成中的地理抹除

使用自定义目标进行微调，研究和实施了一种地理抹除形式，均衡地捕捉 LLM 中低频率的国家提及，从而减轻了地理抹除现象。

Oct, 2023

语言模型表示空间和时间

使用 Llama-2 模型，我们通过分析三个空间数据集（全球、美国、纽约地点）和三个时间数据集（历史人物、艺术品、新闻标题）中学到的表示来找到 LLMs 学习的证据，发现 LLMs 在多个尺度上学习了空间和时间的线性表示，表征对提示的变化具有鲁棒性，并且跨不同实体类型（例如城市和地标）统一。此外，我们还确定了可靠地编码空间和时间坐标的个别 “空间神经元” 和 “时间神经元”。我们的分析证明了现代 LLMs 获取了关于空间和时间等基本维度的结构化知识，支持它们不仅仅学习了表面统计数据，而是字面上的世界模型。

Oct, 2023

大型语言模型几何信息

该研究探讨了大型语言模型（LLMs）中嵌入的信息编码，并发现与模型大小存在幂律关系的表示熵。基于此观察，提出了一个基于（条件）熵的理论以阐明该缩放定律现象。此外，通过使用信息论和回归技术，研究 LLMs 的自回归结构，并检查最后一个标记与前文标记之间的关系。具体地，我们建立了新标记的信息增益与岭回归之间的理论联系。此外，我们还探索了 Lasso 回归在选择有意义的标记方面的有效性，有时优于相关的注意力权重。最后，通过进行对比实验，发现信息分布在各个标记中，而不仅仅集中在特定的 “有意义” 标记中。

Feb, 2024

大型语言模型能否为空间推理任务创造新的知识？

大型语言模型（LLMs）具有生成新信息的潜力，这对于研究和创新来说是一个潜在的重大突破。本文观察到 LLMs 能够对具有空间维度的问题进行复杂推理，这表明现有的 LLMs 能够达到相当程度的理解能力，支持其具有重要的新现象产生特性。特别地，Claude 3 在这方面表现良好。

May, 2024