多语言端到端实体链接
本文介绍了 LIEL,一种语言无关的实体链接系统,通过使用区分重排框架和许多不受领域和语言限制的特征函数,它可以在多种不同的语言中工作。在各种基准数据集上的实验表明,该系统在英语上表现出色,在训练过英语的情况下,也可以很好地工作在西班牙语上,这证明了该方法的可行性。
Dec, 2017
提出了一种新的多语言实体链接公式,其中语言特定的提及解析为面向语言不可知的知识库。 在改进特征表示,负面挖掘和辅助实体配对任务的先前工作的基础上,我们在这个新的环境中训练了一个双编码器,以获得单个实体检索模型,它涵盖了 100 多种语言和 2000 万个实体。该模型胜过了远远有限的跨语言链接任务的最新结果。 这个大规模的系统面临着罕见实体和低资源语言的挑战,因此我们主张增加对零点和少量射击评估的关注。 为此,我们提供了 Mewsli-9,一个新的大型多语言数据集,帮助我们了解基于频率的分析如何为我们的模型和训练增强提供关键见解。
Nov, 2020
实体链接是将文本提及与相应实体连接的计算过程。本论文通过开发多个系统,证明了即使资源有限,也可以构建在多种语言中运作的竞争性神经网络实体链接系统,从而使实体链接更容易接近。
May, 2024
本文提出了第一个神经网络端到端实体链接系统,通过学习文本中所有可能识别结果的上下文相似性得分,实现了提及检测和实体歧义消解的联合(Entity Linking)算法,方法不需要其他工程特定特征,且在足够的训练数据情况下优于市场已有系统,在测试数据集与训练集不同(如问询 / 推文和新闻文档)时,我们的模型与传统命名实体识别系统耦合可提供最好或次优的 EL 准确性。
Aug, 2018
生物医学实体链接(BEL)是将实体提及与知识库进行关联的任务,在生命科学文献的信息提取流程中起着重要作用。我们回顾了该领域的最新研究,并发现由于该任务在生物医学文本挖掘的现有基准中缺失,不同研究采用不同的实验设置,使得基于已发表数据的比较存在问题。此外,神经系统主要在与广泛覆盖的知识库 UMLS 相关的实例上进行测试,使得它们在与更专业的知识库,如基因或变体,相关的性能研究不足。因此,我们开发了一种名为 BELB 的生物医学实体链接基准,以统一的格式提供对与 7 个知识库链接的 11 个语料库的访问,并涵盖了基因、疾病、化学物质、物种、细胞系和变体等六种实体类型。BELB 大大减少了在多个语料库上测试 BEL 系统的预处理开销,为可重复实验提供了一个标准化的测试基准。利用 BELB,我们对六个基于规则的实体特定系统和三个利用预训练语言模型的最新神经方法进行了广泛评估。我们的结果显示出了复杂的情况,表明神经方法在不同实体类型上表现不一致,突出了进一步研究面向实体无关模型的需求。
Aug, 2023
本研究旨在探究使用现代实体链接方法对博物馆收藏数据进行丰富的可能性,结果表明,正交纠正的实体链接模型在该领域的性能明显优于其他现有方法。
May, 2023
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
综述了自 2015 年以来,神经实体链接 (EL) 系统的最新发展,目的是系统化神经实体链接系统的设计特征,并将其性能与常见基准测试中的经典方法进行比较。该文从候选生成、提及 - 上下文编码和实体排名等方面讨论了神经 EL 系统的通用架构,总结了每个方法的突出特点。
May, 2020