多语种实体链接基于密集检索

May, 2024

Multilingual Entity Linking Using Dense Retrieval

Dominik Farhan

TL;DR实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统，证明了即使资源有限，也可以构建在多种语言中运作的竞争性神经网络实体链接系统，从而使实体链接更容易接近。

Abstract

entity linking (EL) is the computational process of connecting textual mentions to corresponding entities. Like many areas of natural language processing, the EL field has greatly benefited from deep learning, le

entity linking deep learning reproducibility neural network multiple languages

发现论文，激发创造

基于深度学习的实体链接模型综述

综述了自 2015 年以来，神经实体链接 (EL) 系统的最新发展，目的是系统化神经实体链接系统的设计特征，并将其性能与常见基准测试中的经典方法进行比较。该文从候选生成、提及 - 上下文编码和实体排名等方面讨论了神经 EL 系统的通用架构，总结了每个方法的突出特点。

May, 2020

短社交媒体文本中实体链接的强韧候选生成

研究了 Tweet 领域中实体链接方法的挑战，提出了一种使用来自维基百科的长上下文表示的混合解决方案，经过实验评估和比较，取得了 0.93 的召回率。

Oct, 2022

通往语言无关的命名实体链接之路

本文介绍了 LIEL，一种语言无关的实体链接系统，通过使用区分重排框架和许多不受领域和语言限制的特征函数，它可以在多种不同的语言中工作。在各种基准数据集上的实验表明，该系统在英语上表现出色，在训练过英语的情况下，也可以很好地工作在西班牙语上，这证明了该方法的可行性。

Dec, 2017

神经跨语言实体链接

本文提出一种神经实体链接模型，通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性，并结合卷积和张量网络，在多语言语境下实现跨语言实体链接，并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如：西班牙语和汉语 TAC 的 2015 数据集)。

Dec, 2017

端到端的神经实体链接

本文提出了第一个神经网络端到端实体链接系统，通过学习文本中所有可能识别结果的上下文相似性得分，实现了提及检测和实体歧义消解的联合（Entity Linking）算法，方法不需要其他工程特定特征，且在足够的训练数据情况下优于市场已有系统，在测试数据集与训练集不同（如问询 / 推文和新闻文档）时，我们的模型与传统命名实体识别系统耦合可提供最好或次优的 EL 准确性。

Aug, 2018

基于稠密实体检索的可扩展零样本实体链接

本文介绍一种基于 BERT 的实体链接模型，采用两阶段的零样本链接算法，通过双编码器进行实体检索，并进一步用交叉编码器对候选实体进行重排序。经实验证明，这种方法不需要显式实体嵌入或手动工程化的实体表，已超越最近的零样本评估和已建立的非零样本评估（如 TACKBP-2010），并且具有速度快的优点。

Nov, 2019

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

利用检索增强学习改进生物医学实体链接

通过引入新的 $k$NN-BioEL 方案，以及使用动态难负采样 (DHNS) 进行对比学习，本研究提出了一种改进型的生物医学实体链接模型，可以提高模型对稀有和困难实体的处理能力，并在多个数据集上优于现有方法。

Dec, 2023

命名实体识别和实体链接的联合学习

本文介绍了一种受 Stack-LSTM 启发的模型，利用命名实体识别和实体链接的相关性进行联合学习，从而在 NER 和 EL 两个任务中获得更强的性能，并取得了竞争性的最新成果。

Jul, 2019

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020