用户所述的地理位置是在哪里？：嘈杂的多语言用户输入的地理实体链接

ACLApr, 2024

用户所述的地理位置是在哪里？：嘈杂的多语言用户输入的地理实体链接

Where on Earth Do Users Say They Are?: Geo-Entity Linking for Noisy Multilingual User Input

Tessa Masis, Brendan O'Connor

TL;DR本文探讨了在嘈杂的多语种社交媒体数据中进行地理实体链接的挑战性任务，提出了一种将真实世界位置表示为标记的用户输入位置名称的平均嵌入，并通过可解释的置信度得分进行选择性预测的方法。通过在全球和多语种社交媒体数据集上进行实验证明了我们的方法改进了地理实体链接，并讨论了在不同地理粒度上评估的进展和问题。

Abstract

geo-entity linking is the task of linking a location mention to the real-world geographic location. In this paper we explore the challenging task of geo-entity linking for noisy, →

geo-entity linking multilingual social media data open-source tools averaged embeddings interpretable confidence score

发现论文，激发创造

GeoLM：地理空间语言理解模型的增强

GeoLM 是一个地理信息语言模型，通过连接文本语料库中的语言信息和来自地理数据库的地理信息，利用对比学习和遮蔽语言建模的方法，结合空间坐标嵌入机制来捕捉地理空间上下文，从而提升自然语言中的地理实体的理解能力。实验证明 GeoLM 在地名识别、地名链接、关系提取和地理实体类型等方面具有良好的能力，弥合了自然语言处理和地理空间科学之间的差距。

Oct, 2023

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020

Pangloss 在嘈杂文本环境中的快速实体链接

该论文介绍了 Pangloss，一种用于嘈杂的文本上实体消歧的生产系统。Pangloss 使用一种基于上下文文档嵌入的语义相似度引擎结合概率线性时间关键短语识别算法，以比其它研究或商业系统更好的效果（F1 值 > 5％）解决了实体消歧问题。此外，Pangloss 利用具有分层结构的本地嵌入式数据库来存储其统计数据和元数据，以允许在串流环境和低内存环境（例如移动电话）中进行快速的消歧。

Jul, 2018

基于自动噪声检测的实体链接远程学习

本文介绍了一种在没有标记数据的情况下，通过多实例学习和噪声检测的方法，学习从知识库中链接提及的实体，特别是对于科学领域等标记信息有限的领域。

May, 2019

走向社交化信息提取：嵌入作者、提及和实体

本文试图通过利用微博中的社交网络结构，将作者、提及和实体编码成一个连续向量空间，并将这些向量纳入神经结构预测模型中，以捕捉实体链接任务中固有的结构约束。与现有的最新技术相比，这些设计决策在基准数据集上的 F1 值提高了 1%-5%。

Sep, 2016

多视角深度学习预测 Twitter 用户位置

本文提出了一种名为 MENET (Multi-Entry Neural Network Architecture) 的深度学习模型，能够综合使用利用 Twitter 用户生成内容、用户间连接性以及元数据等多种数据表示方式进行 Twitter 用户地理位置预测，且在三个基准数据集上表现显著优于现有方法。

Dec, 2017

通往语言无关的命名实体链接之路

本文介绍了 LIEL，一种语言无关的实体链接系统，通过使用区分重排框架和许多不受领域和语言限制的特征函数，它可以在多种不同的语言中工作。在各种基准数据集上的实验表明，该系统在英语上表现出色，在训练过英语的情况下，也可以很好地工作在西班牙语上，这证明了该方法的可行性。

Dec, 2017

毋遺一處：提升人道主義文件的地理定位

地理位置是人道主义响应的关键要素，提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息，但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记，提出了一个名为 FeatureRank 的地理编码方法，将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能（F1 = 0.92），而且缓解了现有工具的偏见，错误偏向西方国家的位置。因此，我们得出结论：需要更多来自非西方文件的资源，以确保现成的 NER 系统适用于人道主义领域的部署。

Sep, 2023

通过搜索维基百科句子进行查询的实体链接

本研究提供了一种简单而有效的方法，利用维基百科文章中与查询类似的句子，并直接使用其中人工注释的实体作为查询的候选实体，然后使用一系列特征来排名，包括概率、上下文匹配、词嵌入以及候选实体及其相关实体之间的相关性。通过该方法我们可以在实体链接基准测试中取得更好的结果。

Apr, 2017

面向实体链接的概率超链接包模型

本文提出了一种基于概率图模型的联合实体消岐方法，充分利用了文档级别实体共现和上下文信息，避免昂贵的训练过程和专业特征工程，通过节点置信传递来做近似推断，能够在实时场景中快速高效地工作，对多种基准数据集进行了准确性测试，表现与现有先进方法相当甚至更好。

Sep, 2015