用户所述的地理位置是在哪里?:嘈杂的多语言用户输入的地理实体链接
GeoLM 是一个地理信息语言模型,通过连接文本语料库中的语言信息和来自地理数据库的地理信息,利用对比学习和遮蔽语言建模的方法,结合空间坐标嵌入机制来捕捉地理空间上下文,从而提升自然语言中的地理实体的理解能力。实验证明 GeoLM 在地名识别、地名链接、关系提取和地理实体类型等方面具有良好的能力,弥合了自然语言处理和地理空间科学之间的差距。
Oct, 2023
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
该论文介绍了 Pangloss,一种用于嘈杂的文本上实体消歧的生产系统。Pangloss 使用一种基于上下文文档嵌入的语义相似度引擎结合概率线性时间关键短语识别算法,以比其它研究或商业系统更好的效果(F1 值 > 5%)解决了实体消歧问题。此外,Pangloss 利用具有分层结构的本地嵌入式数据库来存储其统计数据和元数据,以允许在串流环境和低内存环境(例如移动电话)中进行快速的消歧。
Jul, 2018
本文试图通过利用微博中的社交网络结构,将作者、提及和实体编码成一个连续向量空间,并将这些向量纳入神经结构预测模型中,以捕捉实体链接任务中固有的结构约束。与现有的最新技术相比,这些设计决策在基准数据集上的 F1 值提高了 1%-5%。
Sep, 2016
本文提出了一种名为 MENET (Multi-Entry Neural Network Architecture) 的深度学习模型,能够综合使用利用 Twitter 用户生成内容、用户间连接性以及元数据等多种数据表示方式进行 Twitter 用户地理位置预测,且在三个基准数据集上表现显著优于现有方法。
Dec, 2017
本文介绍了 LIEL,一种语言无关的实体链接系统,通过使用区分重排框架和许多不受领域和语言限制的特征函数,它可以在多种不同的语言中工作。在各种基准数据集上的实验表明,该系统在英语上表现出色,在训练过英语的情况下,也可以很好地工作在西班牙语上,这证明了该方法的可行性。
Dec, 2017
地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。
Sep, 2023
本研究提供了一种简单而有效的方法,利用维基百科文章中与查询类似的句子,并直接使用其中人工注释的实体作为查询的候选实体,然后使用一系列特征来排名,包括概率、上下文匹配、词嵌入以及候选实体及其相关实体之间的相关性。通过该方法我们可以在实体链接基准测试中取得更好的结果。
Apr, 2017
本文提出了一种基于概率图模型的联合实体消岐方法,充分利用了文档级别实体共现和上下文信息,避免昂贵的训练过程和专业特征工程,通过节点置信传递来做近似推断,能够在实时场景中快速高效地工作,对多种基准数据集进行了准确性测试,表现与现有先进方法相当甚至更好。
Sep, 2015