迷失在太空:事件数据中的地理定位
提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map),用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能,探讨了端到端模型的优势,包括原则性不确定性估计和利用上下文信息的能力。
Jun, 2021
本文介绍了一种自动地从文本中找到政治事件发生地点的方法,基于一个包含 8,000 个标签的句子集合,使用了一种将自动提取的事件和文本位置联系起来的方法,该模型在注释任务上达到了人类水平表现,胜过了先前的事件地理定位系统,并可应用于大多数地理环境下的事件提取系统。本文形式化了事件 - 位置链接任务、描述了神经网络模型,并演示了一个工作流来回答叙利亚内战中传统军事攻势导致平民伤亡的开放性问题。
May, 2019
地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。
Sep, 2023
本文提出了一个简单而有效的模型,即真实来源模型,来解决 twitter 上的 “位置 A / B 问题”,该模型使用机器级自然语言理解来识别可能含有原始位置信息的推文,以达到国家,省市,乡镇和地区等级的有希望的准确性,并研究了多个推文的分布,以了解 Twitter 用户在提及原始和非原始位置方面的行为。
Nov, 2022
本文探索了利用文本输入进行太空态势感知任务,并构建了一个涵盖所有已知活动卫星的 48.5k 新闻文章的语料库,通过基于依赖规则的提取系统来标识太空事件句子,并通过人工标注来提取事件插槽。研究表明,采用最先进的神经抽取系统在这个低资源、高影响的领域可以实现每个事件插槽的 F1 值在 53 到 91 之间。
Jan, 2022
机器学习和自然语言处理可以通过预测实时的恐怖袭击来帮助打击恐怖主义,本研究通过使用社交网络文本来提取必要信息建立合适的恐怖袭击预测数据集,实验发现现有解决方案在地点识别方面准确率较低,我们的解决方案得以解决,并将扩展解决方案以提取日期和行动信息来实现项目目标。
Aug, 2023
使用神经网络、自然语言处理以及高斯混合模型,对推特文本中的地理位置进行预测,在全球范围以及美国范围内实验结果的中位误差分别小于 30 公里和 15 公里。
Mar, 2023
本文介绍了一种用于 Reddit 社交媒体平台地理定位推断的方法,设计了一种文本启发式模式用于生成 Reddit 用户的地理位置标签,进而进行训练并测试了几种在数据集和 Twitter 数据集上的地理定位模型,结果表明在同一领域训练和应用的地理定位模型比跨域的模型表现更好,尤其是在 Reddit 上,平台特定的兴趣组元数据可以用于提高推断效果。
Oct, 2018