基于树形结构的监督聚类方法实现实体链接和发现
提出了一种基于最近邻法的实体链接方法,该方法通过建立一个上下文相关的提及编码器,学习将相似的提及放置在比不同实体的提及更接近的向量空间中,从而利用所有实体的提及作为 “类原型”,通过对训练集中标记的实体的提及集合进行检索,并应用最近的提及邻居实体标签进行推理。通过对维基百科超链接的提及对的大型多语言语料库进行训练,该模型在一个包含 7 亿个提及的索引上进行最近邻推理。该方法训练简单,预测可解释性更强,并在两个多语言实体链接基准测试中优于所有其他现有方法。
Jun, 2021
我们提出了一种新的树形目标函数 MINTREE,并引入了一种新的算法 Pair-Linking 来解决实体消歧的问题,实验证明,与现有的算法相比,我们的方法不仅更准确,而且速度惊人地快。
Feb, 2018
本文提出了一种基于概率图模型的联合实体消岐方法,充分利用了文档级别实体共现和上下文信息,避免昂贵的训练过程和专业特征工程,通过节点置信传递来做近似推断,能够在实时场景中快速高效地工作,对多种基准数据集进行了准确性测试,表现与现有先进方法相当甚至更好。
Sep, 2015
本研究提出了一种新的神经实体链接模型,将实体链接中的关系视为潜在变量,并在优化实体链接系统的同时诱导这些关系,同时取得了 AIDA-CoNLL 基准测试上最好的结果。
Apr, 2018
使用双编码器模型,在相同的密集向量空间中对实体和提及进行编码,并通过近似最近邻搜索检索候选实体,从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器,该方法优于离散别名表和 BM25 基线,并且与标准 TACKBP-2010 数据集中最佳结果相当,还可以快速检索候选者,并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面,我们演示了无监督的负采矿算法在这一任务中的重要作用。
Sep, 2019
本文介绍一种从无序平面嵌入空间中捕捉层次结构信息的数据结构算法,基于权威性分布的想法构建有向根树,用于识别单词的上位词关系和寻找共同祖先,同时在维基页面链接恢复方面表现出优异的性能。
Nov, 2022
提出一种无需实体级别监督的实体链接和关系抽取模型,避免了流水线方法中产生的级联错误,并在两个生物医学数据集上优于最先进的实体链接和关系抽取流水线,极大地提高了系统的总体召回率。
Dec, 2019
研究使用关联网络和 BERT 来进行实体链接和共指消解,发现在领域内语言建模预训练和出版物信息可以显著提高任务性能,提出一种新的监督聚类推断模型并在两个数据集上进行了实验证 显示其具有竞争性能。
Aug, 2022
通过使用神经网络和学习搜索算法,本研究提出了一种基于实体级信息的代指消解系统,其在 CoNLL 2012 共享任务数据集的英语和中文部分上,即使使用了很少的手工特征,也显著优于当前最先进的技术。
Jun, 2016