跨语言实体链接的多语言联合监督
本文主要研究 Cross-lingual Entity Linking 领域中的一些技术问题,例如应用于小型 Wikipedia,以及如何选择英文维基百科标题来对应一个外文提及的实体等。作者提出了使用外部跨语言资源的解决方案 QuEL,并通过对多种语言的实验得到了较好的实验效果。
May, 2020
通过三种简单而有效的方法,针对低资源语言交叉链接解决方案的实体候选生成方法进行改进,通过在七个数据集上的实验发现,我们的方法在 Top-30 gold candidate recall 上平均提高了 16.9%,在端到端 XEL 的 in-KB 准确性方面平均提高了 7.9%,相对于最先进的基线。
Mar, 2020
本文介绍了 LIEL,一种语言无关的实体链接系统,通过使用区分重排框架和许多不受领域和语言限制的特征函数,它可以在多种不同的语言中工作。在各种基准数据集上的实验表明,该系统在英语上表现出色,在训练过英语的情况下,也可以很好地工作在西班牙语上,这证明了该方法的可行性。
Dec, 2017
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
本研究提出了一种新的跨语言词和实体联合表示学习方法,通过多语言知识库进行远程监督,利用两种正则化方法和知识和跨语言关注降低噪声, 实验结果定性和定量证明了该方法的显著性。
Nov, 2018
本研究提出了一种名为 JEANS 的 incidentally supervised 模型,该模型联合表示多语言知识图谱和文本语料库,并通过文本提供一定程度的监督信号来改进实体对齐任务。实验结果表明,JEANS 在实体对齐方面具有较好的性能,且显著优于仅依赖于知识图谱内部信息的现有方法。
May, 2020
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
CDNEL 是一种跨领域神经实体链接框架,它通过学习不同领域知识库的联合表示空间来实现同时链接到通用领域知识库和特定领域知识库,其使用不同类型的数据集进行微调,从而得出不同的 CDNEL 模型变体。研究表明,使用 Zeshel 数据集中包括的四个领域进行评估时,这些变体实现了 9% 的平均精度提升。
Sep, 2022
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020