低资源跨语言实体链接的设计挑战

EMNLPMay, 2020

低资源跨语言实体链接的设计挑战

Design Challenges in Low-resource Cross-lingual Entity Linking

Xingyu Fu, Weijia Shi, Xiaodong Yu, Zian Zhao, Dan Roth

TL;DR本文主要研究 Cross-lingual Entity Linking 领域中的一些技术问题，例如应用于小型 Wikipedia，以及如何选择英文维基百科标题来对应一个外文提及的实体等。作者提出了使用外部跨语言资源的解决方案 QuEL，并通过对多种语言的实验得到了较好的实验效果。

Abstract

cross-lingual entity linking (XEL), the problem of grounding mentions of entities in a foreign language text into an english knowledge base such as →

cross-lingual entity linking low-resource languages wikipedia english knowledge base quel

发现论文，激发创造

零资源跨语种实体链接

本研究研究了交叉语言实体链接在资源匮乏情况下的应用，提出了三种改进方法，通过实验在四种极度低资源语言中取得了 6-23% 的端到端链接准确率提高。

Sep, 2019

改进低资源跨语言实体链接的候选生成

通过三种简单而有效的方法，针对低资源语言交叉链接解决方案的实体候选生成方法进行改进，通过在七个数据集上的实验发现，我们的方法在 Top-30 gold candidate recall 上平均提高了 16.9％，在端到端 XEL 的 in-KB 准确性方面平均提高了 7.9％，相对于最先进的基线。

Mar, 2020

跨语言实体链接的多语言联合监督

本文提出了一种结合多种语言监督信息的跨语言实体链接方法，极大地提高了低资源语言中实体表达的识别准确率，在多语言环境下训练的模型也表现出了明显的优势。同时，在零样例和低资源情境下也做出了相应的分析，证明了该模型的鲁棒性与适用性。

Sep, 2018

神经跨语言实体链接

本文提出一种神经实体链接模型，通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性，并结合卷积和张量网络，在多语言语境下实现跨语言实体链接，并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如：西班牙语和汉语 TAC 的 2015 数据集)。

Dec, 2017

通往语言无关的命名实体链接之路

本文介绍了 LIEL，一种语言无关的实体链接系统，通过使用区分重排框架和许多不受领域和语言限制的特征函数，它可以在多种不同的语言中工作。在各种基准数据集上的实验表明，该系统在英语上表现出色，在训练过英语的情况下，也可以很好地工作在西班牙语上，这证明了该方法的可行性。

Dec, 2017

零样本神经网络跨语言实体链接

本研究探讨了零资源语言的跨语言实体链接问题，利用高资源语言建立了基于字级别神经实体链接模型的枢轴式实体链接框架，实现了跨 54 种语言的零 - shot transfer，并在 9 种低资源语言上进行了实验，相比于基线系统，平均提高了 17% 的实体链接准确性。同时，文章还探讨了语言通用音韵表示的使用，在不同语言之间转移时将平均准确率提高了 36%。

Nov, 2018

XWikiGen：低资源语言百科文本生成的跨语言摘要

本研究针对缺乏百科全书文本贡献者的问题，提出了一种基于多语言参考文章的跨语言多文档摘要生成任务，同时建立了一个基准数据集，并提出了一种基于神经网络的有监督和无监督摘要生成系统，实验表明多领域的训练要优于多语言的设置。

Mar, 2023

低资源语言的跨语言金融交易数据 NER

我们提出了一个高效的建模框架，用于半结构化文本数据中的跨语言命名实体识别。我们的方法依赖于知识蒸馏和一致性训练，并且利用预训练在源语言上的大型语言模型（XLMRoBERTa）的知识，通过学生 - 教师关系（知识蒸馏）。学生模型在低资源目标语言上采用无监督的一致性训练（使用 KL 散度损失）。我们使用两个独立的 SMS 数据集，分别是英语和阿拉伯语，每个数据集都携带有半结构化的银行交易信息，并侧重展示从英语到阿拉伯语的知识传递。通过仅使用 30 个标记样本，我们的模型可以将商家、金额和其他字段的识别从英语推广到阿拉伯语。我们的实验表明，在低资源语言的少量标记样本的情况下，学习在英语中识别实体就足以在低资源语言中达到合理的性能。该提出的框架对于开发多语言应用程序，尤其是在数字化努力依赖英语和一种或多种低资源语言的地理区域具有重要意义，有时与英语混合使用或独立使用。

Jul, 2023

100 语言的实体链接

提出了一种新的多语言实体链接公式，其中语言特定的提及解析为面向语言不可知的知识库。在改进特征表示，负面挖掘和辅助实体配对任务的先前工作的基础上，我们在这个新的环境中训练了一个双编码器，以获得单个实体检索模型，它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。这个大规模的系统面临着罕见实体和低资源语言的挑战，因此我们主张增加对零点和少量射击评估的关注。为此，我们提供了 Mewsli-9，一个新的大型多语言数据集，帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。

Nov, 2020

面向低资源印度语言的跨语言事实提取的大规模多语言语言模型

本研究提出 Cross Lingual Fact Extraction（CLFE）的任务，并针对使用自然低资源语言文本提出了一种端到端生成性方法，可实现 77.46 的整体 F1 分数。

Feb, 2023