迷失在太空：事件数据中的地理定位

Nov, 2016

迷失在太空：事件数据中的地理定位

Lost in Space: Geolocation in Event Data

Sophie J. Lee, Howard Liu, Michael D. Ward

TL;DR本篇研究提出了一种基于监督式机器学习的算法，利用新闻文章数据中的 N-gram 模式、提及频率和句子上下文等上下文信息，对文本数据中的位置词进行判断，并在 GEO 码表现上提高了 25% 的准确性。

Abstract

Extracting the "correct" location information from text data, i.e., determining the place of event, has long been a goal for automated text processing. To approximate human-like coding schema, we introduce a supervised machine learning algorithm that classifies each location word to be either correct or incorrect. We use news articles collected from around t

supervised machine learning location information extraction n-gram patterns contextual information geolocation

发现论文，激发创造

基于文本信息的概率地理编码位置回归

提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map)，用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能，探讨了端到端模型的优势，包括原则性不确定性估计和利用上下文信息的能力。

Jun, 2021

文本中的政治事件地理定位

本文介绍了一种自动地从文本中找到政治事件发生地点的方法，基于一个包含 8,000 个标签的句子集合，使用了一种将自动提取的事件和文本位置联系起来的方法，该模型在注释任务上达到了人类水平表现，胜过了先前的事件地理定位系统，并可应用于大多数地理环境下的事件提取系统。本文形式化了事件 - 位置链接任务、描述了神经网络模型，并演示了一个工作流来回答叙利亚内战中传统军事攻势导致平民伤亡的开放性问题。

May, 2019

毋遺一處：提升人道主義文件的地理定位

地理位置是人道主义响应的关键要素，提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息，但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记，提出了一个名为 FeatureRank 的地理编码方法，将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能（F1 = 0.92），而且缓解了现有工具的偏见，错误偏向西方国家的位置。因此，我们得出结论：需要更多来自非西方文件的资源，以确保现成的 NER 系统适用于人道主义领域的部署。

Sep, 2023

基于上下文信息推断推文来源地

本文提出了一个简单而有效的模型，即真实来源模型，来解决 twitter 上的 “位置 A / B 问题”，该模型使用机器级自然语言理解来识别可能含有原始位置信息的推文，以达到国家，省市，乡镇和地区等级的有希望的准确性，并研究了多个推文的分布，以了解 Twitter 用户在提及原始和非原始位置方面的行为。

Nov, 2022

从新闻文本中提取空间态势感知事件

本文探索了利用文本输入进行太空态势感知任务，并构建了一个涵盖所有已知活动卫星的 48.5k 新闻文章的语料库，通过基于依赖规则的提取系统来标识太空事件句子，并通过人工标注来提取事件插槽。研究表明，采用最先进的神经抽取系统在这个低资源、高影响的领域可以实现每个事件插槽的 F1 值在 53 到 91 之间。

Jan, 2022

利用自然语言处理从社交网络文本中提取高准确度的位置信息

机器学习和自然语言处理可以通过预测实时的恐怖袭击来帮助打击恐怖主义，本研究通过使用社交网络文本来提取必要信息建立合适的恐怖袭击预测数据集，实验发现现有解决方案在地点识别方面准确率较低，我们的解决方案得以解决，并将扩展解决方案以提取日期和行动信息来实现项目目标。

Aug, 2023

利用 BERT-Based 模型预测推文的地理位置

使用神经网络、自然语言处理以及高斯混合模型，对推特文本中的地理位置进行预测，在全球范围以及美国范围内实验结果的中位误差分别小于 30 公里和 15 公里。

Mar, 2023

文本中隐含地理移动的识别

通过手动标注、众包及机器学习相结合的方式，本文创新性地建立了基于地理运动描述文本的语料库，以推动地理数据的计算处理和空间认知能力的探索。

Jan, 2022

reddit 文本的地理编码方法

本文介绍了一种用于 Reddit 社交媒体平台地理定位推断的方法，设计了一种文本启发式模式用于生成 Reddit 用户的地理位置标签，进而进行训练并测试了几种在数据集和 Twitter 数据集上的地理定位模型，结果表明在同一领域训练和应用的地理定位模型比跨域的模型表现更好，尤其是在 Reddit 上，平台特定的兴趣组元数据可以用于提高推断效果。

Oct, 2018

去往何处即是你的身份 —— 基于机器学习的语义隐私攻击研究

机器学习和位置数据的隐私攻击对隐私造成了显著风险，并且需要隐私监管来保护个人的位置信息。

Oct, 2023