mapKurator 系统：从历史地图提取和链接文本的完整流水线

Jun, 2023

mapKurator 系统：从历史地图提取和链接文本的完整流水线

The mapKurator System: A Complete Pipeline for Extracting and Linking Text from Historical Maps

Jina Kim, Zekun Li, Yijun Lin, Min Namgung, Leeje Jang...

TL;DR文档的定位特点和重要的本地特征。因此，我们提出了一种名为 JELLY 的简单而有效的联合嵌入方法，它在多位置（multi-LocaLitY）下同时学习文档和位置的编码器，能够更有效地识别文档空间重点。

Abstract

Documents hold spatial focus and valuable locality characteristics. For example, descriptions of listings in real estate or travel blogs contain information about specific local neighborhoods. This information is valuable to characterize how humans perceive their environment. However,

spatial focus document analysis jelly topic modeling location

发现论文，激发创造

基于 LLM 的关系抽取在历史湖区文本中的空间表示研究

使用生成式预训练转换模型从语料库中提取空间关系，以图形化方式呈现语境内条时关联，深入理解英国湖区的空间构架并揭示多样历史背景下的空间关系。

Jun, 2024

在 Common Crawl 语料库中量化地理空间

分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率，发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息，为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。

Jun, 2024

大规模评估主题模型和降维方法在二维文本空间化中的应用

基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化，t-SNE 在降维中的适用性得到验证。

Jul, 2023

GeoLLM：从大型语言模型中提取地理空间知识

在这篇论文中，我们探讨了机器学习在地理空间预测任务中的应用，提出了一种名为 GeoLLM 的新方法，利用大型语言模型中的地理空间信息和开放街道地图的辅助数据，有效地提取地理空间知识，用于测量人口密度等中心问题，相较于最近邻和直接使用提示信息的基准方法，在多个任务上展现了 70% 的性能提升，并且与卫星数据的基准结果相当甚至超出，证明了大型语言模型在地理空间任务上的可行性和潜力。

Oct, 2023

核心构建模块：下一代地理空间 GPT 应用

提出了 MapGPT，将大型语言模型 (LLMs) 的能力与空间数据处理技术相结合，以桥接自然语言理解和空间数据分析之间的差距。该研究介绍了 MapGPT 的核心构建模块，并将 LLMS 应用于空间和文本数据的建立中，利用特定于空间信息的分词和向量表示，旨在提供更准确和具有上下文意识的面向位置的查询响应。研究还探讨了生成空间向量表示所面临的挑战，以及 MapGPT 中计算能力的潜力，使用户能够进行地理空间计算并获取可视化输出。总体而言，这篇研究论文介绍了 MapGPT 的构建方法和方法论，突出了其在自然语言处理应用中增强空间数据理解和生成的潜力。

Oct, 2023

GeoLM：地理空间语言理解模型的增强

GeoLM 是一个地理信息语言模型，通过连接文本语料库中的语言信息和来自地理数据库的地理信息，利用对比学习和遮蔽语言建模的方法，结合空间坐标嵌入机制来捕捉地理空间上下文，从而提升自然语言中的地理实体的理解能力。实验证明 GeoLM 在地名识别、地名链接、关系提取和地理实体类型等方面具有良好的能力，弥合了自然语言处理和地理空间科学之间的差距。

Oct, 2023

开拓新领域：探索多模态 LLMs 的地理和地理空间能力

通过进行一系列实验，我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力，重点关注前沿模型 GPT-4V 的视觉能力，并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型，测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点，包括超过人类的性能，并揭示了它们的不足之处，提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估，我们将公开发布我们的基准测试。

Nov, 2023

TopicSifter：通过有针对性的主题建模交互式减少搜索空间

本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统，以帮助用户针对具体目标进行大规模文档检索，包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。

Jul, 2019

单一文本中的无监督本地和全局关键词提取

我们提出了一种无监督、语料库无关的方法，从单个文本中提取关键词。该方法基于词语的空间分布以及该分布对词语的随机排列的响应。与现有方法相比（如 YAKE），我们的方法具有三个优点。首先，它在提取长文本中的关键词方面更为有效。其次，它允许推断两种类型的关键词：本地和全局关键词。第三，它揭示了文本中的基本主题。此外，我们的方法是与语言无关的，并适用于短文本。结果是通过对具有先前知识的人类注释器在我们的古典文学作品数据库的文本上获得的（注释器之间的一致性从中等到重大）。我们的结果受到了基于所提取内容词的平均长度以及所提取词中名词的平均数量的非人类独立论证的支持。我们讨论了关键词与高阶文本特征之间的关系，并揭示了关键词与章节划分之间的联系。

Jul, 2023

警方文本分析：主题建模和空间相对密度估计

本文运用无监督机器学习算法 —— 隐含狄利克雷分配和非负矩阵分解，分析了一个大型警察事件叙述文件的主题分布，并提出了一种 k - 最近邻密度比估计方法来评估每个主题的空间密度比，从而揭示其中的趋势及规律。

Feb, 2022