mapKurator 系统:从历史地图提取和链接文本的完整流水线
使用生成式预训练转换模型从语料库中提取空间关系,以图形化方式呈现语境内条时关联,深入理解英国湖区的空间构架并揭示多样历史背景下的空间关系。
Jun, 2024
分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率,发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息,为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。
Jun, 2024
在这篇论文中,我们探讨了机器学习在地理空间预测任务中的应用,提出了一种名为 GeoLLM 的新方法,利用大型语言模型中的地理空间信息和开放街道地图的辅助数据,有效地提取地理空间知识,用于测量人口密度等中心问题,相较于最近邻和直接使用提示信息的基准方法,在多个任务上展现了 70% 的性能提升,并且与卫星数据的基准结果相当甚至超出,证明了大型语言模型在地理空间任务上的可行性和潜力。
Oct, 2023
提出了 MapGPT,将大型语言模型 (LLMs) 的能力与空间数据处理技术相结合,以桥接自然语言理解和空间数据分析之间的差距。该研究介绍了 MapGPT 的核心构建模块,并将 LLMS 应用于空间和文本数据的建立中,利用特定于空间信息的分词和向量表示,旨在提供更准确和具有上下文意识的面向位置的查询响应。研究还探讨了生成空间向量表示所面临的挑战,以及 MapGPT 中计算能力的潜力,使用户能够进行地理空间计算并获取可视化输出。总体而言,这篇研究论文介绍了 MapGPT 的构建方法和方法论,突出了其在自然语言处理应用中增强空间数据理解和生成的潜力。
Oct, 2023
GeoLM 是一个地理信息语言模型,通过连接文本语料库中的语言信息和来自地理数据库的地理信息,利用对比学习和遮蔽语言建模的方法,结合空间坐标嵌入机制来捕捉地理空间上下文,从而提升自然语言中的地理实体的理解能力。实验证明 GeoLM 在地名识别、地名链接、关系提取和地理实体类型等方面具有良好的能力,弥合了自然语言处理和地理空间科学之间的差距。
Oct, 2023
通过进行一系列实验,我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力,重点关注前沿模型 GPT-4V 的视觉能力,并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型,测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点,包括超过人类的性能,并揭示了它们的不足之处,提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估,我们将公开发布我们的基准测试。
Nov, 2023
本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统,以帮助用户针对具体目标进行大规模文档检索,包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。
Jul, 2019
我们提出了一种无监督、语料库无关的方法,从单个文本中提取关键词。该方法基于词语的空间分布以及该分布对词语的随机排列的响应。与现有方法相比(如 YAKE),我们的方法具有三个优点。首先,它在提取长文本中的关键词方面更为有效。其次,它允许推断两种类型的关键词:本地和全局关键词。第三,它揭示了文本中的基本主题。此外,我们的方法是与语言无关的,并适用于短文本。结果是通过对具有先前知识的人类注释器在我们的古典文学作品数据库的文本上获得的(注释器之间的一致性从中等到重大)。我们的结果受到了基于所提取内容词的平均长度以及所提取词中名词的平均数量的非人类独立论证的支持。我们讨论了关键词与高阶文本特征之间的关系,并揭示了关键词与章节划分之间的联系。
Jul, 2023
本文运用无监督机器学习算法 —— 隐含狄利克雷分配和非负矩阵分解,分析了一个大型警察事件叙述文件的主题分布,并提出了一种 k - 最近邻密度比估计方法来评估每个主题的空间密度比,从而揭示其中的趋势及规律。
Feb, 2022