基于文本信息的概率地理编码位置回归

ACLJun, 2021

基于文本信息的概率地理编码位置回归

Regressing Location on Text for Probabilistic Geocoding

Benjamin J. Radford

TL;DR提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map)，用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能，探讨了端到端模型的优势，包括原则性不确定性估计和利用上下文信息的能力。

Abstract

text data are an important source of detailed information about social and political events. Automated systems parse large volumes of text data to infer or extract structured information that describes actors, ac

text data geocoding probabilistic model contextual information uncertainty estimation

发现论文，激发创造

迷失在太空：事件数据中的地理定位

本篇研究提出了一种基于监督式机器学习的算法，利用新闻文章数据中的 N-gram 模式、提及频率和句子上下文等上下文信息，对文本数据中的位置词进行判断，并在 GEO 码表现上提高了 25% 的准确性。

Nov, 2016

文本中的政治事件地理定位

本文介绍了一种自动地从文本中找到政治事件发生地点的方法，基于一个包含 8,000 个标签的句子集合，使用了一种将自动提取的事件和文本位置联系起来的方法，该模型在注释任务上达到了人类水平表现，胜过了先前的事件地理定位系统，并可应用于大多数地理环境下的事件提取系统。本文形式化了事件 - 位置链接任务、描述了神经网络模型，并演示了一个工作流来回答叙利亚内战中传统军事攻势导致平民伤亡的开放性问题。

May, 2019

reddit 文本的地理编码方法

本文介绍了一种用于 Reddit 社交媒体平台地理定位推断的方法，设计了一种文本启发式模式用于生成 Reddit 用户的地理位置标签，进而进行训练并测试了几种在数据集和 Twitter 数据集上的地理定位模型，结果表明在同一领域训练和应用的地理定位模型比跨域的模型表现更好，尤其是在 Reddit 上，平台特定的兴趣组元数据可以用于提高推断效果。

Oct, 2018

基于 Transformer 的地理编码

本文使用序列到序列的方法解决了从自由文本中预测地理位置的问题，通过训练 T5 encoder-decoder transformer 模型，基于地标数据进行自适应单元划分，获得了一个地理编码模型，其中的代码、数据集和模型检查点都是公开的。

Jan, 2023

利用 BERT-Based 模型预测推文的地理位置

使用神经网络、自然语言处理以及高斯混合模型，对推特文本中的地理位置进行预测，在全球范围以及美国范围内实验结果的中位误差分别小于 30 公里和 15 公里。

Mar, 2023

文本中位置参考识别：调查与比较

本文对地理位置信息的解析进行了系统梳理和综合评估，总结了地理信息检索、疾病监测、交通管理等七个应用领域的实践应用，归纳了四类解析方法并对其中流行的 27 种方法进行了计算正确性和效率评估，为未来方法发展提供了指导和参考。

Jul, 2022

使用定量信心推断推文的来源地

本研究提出了一种基于高斯混合模型的可扩展内容分析的方法，用于估算推文的地理位置，并提出了精度、准确度和校准等度量标准，并实现了对全球 1300 万条 Tweet 的实验，得出了可靠的、与以前的计算密集型方法相媲美的结果。

May, 2013

基于上下文信息推断推文来源地

本文提出了一个简单而有效的模型，即真实来源模型，来解决 twitter 上的 “位置 A / B 问题”，该模型使用机器级自然语言理解来识别可能含有原始位置信息的推文，以达到国家，省市，乡镇和地区等级的有希望的准确性，并研究了多个推文的分布，以了解 Twitter 用户在提及原始和非原始位置方面的行为。

Nov, 2022

毋遺一處：提升人道主義文件的地理定位

地理位置是人道主义响应的关键要素，提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息，但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记，提出了一个名为 FeatureRank 的地理编码方法，将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能（F1 = 0.92），而且缓解了现有工具的偏见，错误偏向西方国家的位置。因此，我们得出结论：需要更多来自非西方文件的资源，以确保现成的 NER 系统适用于人道主义领域的部署。

Sep, 2023

地理标记 Twitter 数据中的混淆和后果

通过比较使用 GPS 坐标和用户自报位置不同的语言分析方法，研究表明不同年龄和性别的人对特定主题的写作风格有所不同，并给出了男性 40 岁以上的文本地理定位最准确的结果。同时，年龄和性别是影响语言使用的重要变量。

Jun, 2015