跨语言实体链接的多语言联合监督

EMNLPSep, 2018

跨语言实体链接的多语言联合监督

Joint Multilingual Supervision for Cross-lingual Entity Linking

Shyam Upadhyay, Nitish Gupta, Dan Roth

TL;DR本文提出了一种结合多种语言监督信息的跨语言实体链接方法，极大地提高了低资源语言中实体表达的识别准确率，在多语言环境下训练的模型也表现出了明显的优势。同时，在零样例和低资源情境下也做出了相应的分析，证明了该模型的鲁棒性与适用性。

Abstract

cross-lingual entity linking (XEL) aims to ground entity mentions written in any language to an English Knowledge Base (KB), such as Wikipedia. XEL for most languages is challenging, owing to limited availability of resources as →

cross-lingual entity linking supervision multiple languages low-resource settings zero-shot

发现论文，激发创造

零资源跨语种实体链接

本研究研究了交叉语言实体链接在资源匮乏情况下的应用，提出了三种改进方法，通过实验在四种极度低资源语言中取得了 6-23% 的端到端链接准确率提高。

Sep, 2019

低资源跨语言实体链接的设计挑战

本文主要研究 Cross-lingual Entity Linking 领域中的一些技术问题，例如应用于小型 Wikipedia，以及如何选择英文维基百科标题来对应一个外文提及的实体等。作者提出了使用外部跨语言资源的解决方案 QuEL，并通过对多种语言的实验得到了较好的实验效果。

May, 2020

改进低资源跨语言实体链接的候选生成

通过三种简单而有效的方法，针对低资源语言交叉链接解决方案的实体候选生成方法进行改进，通过在七个数据集上的实验发现，我们的方法在 Top-30 gold candidate recall 上平均提高了 16.9％，在端到端 XEL 的 in-KB 准确性方面平均提高了 7.9％，相对于最先进的基线。

Mar, 2020

通往语言无关的命名实体链接之路

本文介绍了 LIEL，一种语言无关的实体链接系统，通过使用区分重排框架和许多不受领域和语言限制的特征函数，它可以在多种不同的语言中工作。在各种基准数据集上的实验表明，该系统在英语上表现出色，在训练过英语的情况下，也可以很好地工作在西班牙语上，这证明了该方法的可行性。

Dec, 2017

神经跨语言实体链接

本文提出一种神经实体链接模型，通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性，并结合卷积和张量网络，在多语言语境下实现跨语言实体链接，并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如：西班牙语和汉语 TAC 的 2015 数据集)。

Dec, 2017

通过注重远程监督，联合学习跨语言词汇和实体的表示

本研究提出了一种新的跨语言词和实体联合表示学习方法，通过多语言知识库进行远程监督，利用两种正则化方法和知识和跨语言关注降低噪声，实验结果定性和定量证明了该方法的显著性。

Nov, 2018

具有偶然监督的跨语言实体对齐

本研究提出了一种名为 JEANS 的 incidentally supervised 模型，该模型联合表示多语言知识图谱和文本语料库，并通过文本提供一定程度的监督信号来改进实体对齐任务。实验结果表明，JEANS 在实体对齐方面具有较好的性能，且显著优于仅依赖于知识图谱内部信息的现有方法。

May, 2020

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

跨域神经实体链接

CDNEL 是一种跨领域神经实体链接框架，它通过学习不同领域知识库的联合表示空间来实现同时链接到通用领域知识库和特定领域知识库，其使用不同类型的数据集进行微调，从而得出不同的 CDNEL 模型变体。研究表明，使用 Zeshel 数据集中包括的四个领域进行评估时，这些变体实现了 9% 的平均精度提升。

Sep, 2022

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020