Sep, 2023

毋遺一處:提升人道主義文件的地理定位

TL;DR地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。