通过更好的候选生成和基于 Transformer 的重新排序以及两阶段解析提高地名解析能力
本文提出了一种基于一维卷积神经网络(CNN1D)和来自 Transformer 的双向编码器表示(BERT)的地名识别模块 TopoBERT,通过 fine-tuned 的方式在三个数据集上得到最优结果,比其他五个基线模型表现更出色,可以应用于多种地名识别任务。
Jan, 2023
本文使用序列到序列的方法解决了从自由文本中预测地理位置的问题,通过训练 T5 encoder-decoder transformer 模型,基于地标数据进行自适应单元划分,获得了一个地理编码模型,其中的代码、数据集和模型检查点都是公开的。
Jan, 2023
该研究提出了一个三部分新框架,包括任务定义、指标和评估数据,即通过语料库语言分析提出一个细粒度的地名实用分类学,讨论和审查任务的指标,并共享一个新的数据集 GeoWebNews 以提供测试 / 培训示例和启用我们贡献的即时使用; 除了细粒度 Geotagging 和 Toponym Resolution(地理编码),该数据集也适用于机器学习 NLP 模型的原型设计和评估
Oct, 2018
地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。
Sep, 2023
通过使用 Geo-Encoder 框架,该研究提出了一种将中国地理语义有效集成到重新排名流程中的方法,通过多任务学习模块和异步更新机制,显著提高了中国地理重新排名算法的效果。
Sep, 2023
提出了基于 Transformer 的社交媒体 POI 级地理位置推测通用框架,考虑非文本数据,优化特征表示及位置捕捉,实验结果证明该框架在多项指标上均优于多种先进基线。
Oct, 2022
本文介绍了一种用于 Reddit 社交媒体平台地理定位推断的方法,设计了一种文本启发式模式用于生成 Reddit 用户的地理位置标签,进而进行训练并测试了几种在数据集和 Twitter 数据集上的地理定位模型,结果表明在同一领域训练和应用的地理定位模型比跨域的模型表现更好,尤其是在 Reddit 上,平台特定的兴趣组元数据可以用于提高推断效果。
Oct, 2018
Mordecai3 是一个新的终端到终端文本地理解析器和事件地理定位系统,利用神经排名模型进行地名解析和事件地理编码,并在性能上与现有的地理分析器进行对比,同时发布了开源 Python 库 Mordecai 3。
Mar, 2023
提出了一种基于概率模型的文本数据地理编码方法 (ELECTRo-map),用于推断或提取描述行为、日期、时间和位置等信息。本文还对比了该方法与当前开源系统的性能,探讨了端到端模型的优势,包括原则性不确定性估计和利用上下文信息的能力。
Jun, 2021
该研究调查了经过通用问答数据集微调的句子转换器在不对称语义搜索中,将英国各地人工生成的路线描述与用于描述徒步经历的查询关联的能力。研究发现,句子转换器在理解路线类型和难度等准地理概念方面具有一定的零样本能力,因此可能在路线推荐系统中具有潜在的实用性。
Apr, 2024