文本中隐含地理移动的识别
研究文本中描述的运动是有挑战性的,由于空间 term,语言构造以及时间参照等多因素影响。研究通过实验,发现人们用来区分不同运动描述的特征,为基于文本的运动计算分析提出了建议。
Jan, 2022
通过自动提取文本信息来感知运动现象具有挑战性。本文介绍了 GeoMovement,该系统基于结合机器学习和基于规则的运动相关信息抽取,并使用先进的可视化技术。GeoMovement 提供了一种集成框架,可以同时提取运动和缺乏运动,为人们提供了有意义的地理运动信息。
Mar, 2022
分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率,发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息,为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。
Jun, 2024
地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。
Sep, 2023
基于国家级无标签人类流动数据进行事先训练的转换器能够通过微调形成对目标地理区域及其相应流动模式的深入理解,我们的预先训练嵌入在涵盖与人类流动直接和间接相关的广泛概念方面表现出良好性能,包括地理位置、距离、行政区划和土地覆盖等,通过大量实证分析,我们发现预先训练可以显著提升性能,在树木覆盖回归等任务中达到 38%,我们将这一结果归因于预先训练能够揭示原始数据中隐藏的有意义模式,并有助于建模相关的高级概念,预先训练的嵌入成为表征区域和轨迹的强大工具,在广泛的后续应用中具有潜在价值。
Jun, 2024
本文对地理位置信息的解析进行了系统梳理和综合评估,总结了地理信息检索、疾病监测、交通管理等七个应用领域的实践应用,归纳了四类解析方法并对其中流行的 27 种方法进行了计算正确性和效率评估,为未来方法发展提供了指导和参考。
Jul, 2022
通过比较使用 GPS 坐标和用户自报位置不同的语言分析方法,研究表明不同年龄和性别的人对特定主题的写作风格有所不同,并给出了男性 40 岁以上的文本地理定位最准确的结果。同时,年龄和性别是影响语言使用的重要变量。
Jun, 2015
本文提出了一个简单而有效的模型,即真实来源模型,来解决 twitter 上的 “位置 A / B 问题”,该模型使用机器级自然语言理解来识别可能含有原始位置信息的推文,以达到国家,省市,乡镇和地区等级的有希望的准确性,并研究了多个推文的分布,以了解 Twitter 用户在提及原始和非原始位置方面的行为。
Nov, 2022
提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map),用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能,探讨了端到端模型的优势,包括原则性不确定性估计和利用上下文信息的能力。
Jun, 2021
DeepMove 利用模型场景中的月度活动来学习地点的潜在表示。 该模型利用了空间和时间上下文,在地点分类和聚类任务中表现出良好性能。
Jul, 2018