- DaMuEL:用于实体链接的大型多语言数据集
介绍一个包涵 53 种语言数据的 DaMuEL 多语言实体链接大规模数据集,它包含一个关于实体的语言无关信息的知识库和与实体链接到知识库的维基百科文本,使用 Wikidata 的 QID 作为持久的语言无关标识符。
- 科学文献表格实体链接实用系统
本文介绍了一个通用的实体链接系统,说明了如何将此系统适应域特定的实体,特别是那些内嵌在 COVID-19 相关科学文献中的实体。通过利用表格的结构和语义特征来提高整体实体链接性能,进一步推断科学表格的语义含义。
- ACL使用生成模型进行多样化形式实体链接的基准测试
提出了一种基于多模态编码器 - 解码器范式的生成模型,用于对广泛多种格式的实体进行链接,并在现有 EL 数据集中建立了覆盖文本、图像和表格三种多模态的基准,经预训练和微调后能表现比特定任务 EL 模型更强的 DMEL 基线,相比其它方法平均 - ACL多视角增强蒸馏:改进实体链接
本篇论文提出了一种多视图增强蒸馏框架,通过跨编解码器到对编解码器的多精细和提及相关部分的知识传输,从而有效地学习与不同提及相匹配的实体表示,实验表明该方法在几个实体链接基准上实现了最优性能。
- ACL学习不链接:探索实体链接中的 NIL 预测
本文提出了一个实体链接数据集 NEL 来研究 NIL 预测问题,该数据集利用预训练语言模型捕捉语义特征并分类 Missing Entity 和 Non-Entity Phrase。研究结果表明,训练数据中的两种类型的 NIL 提及对 NIL - 通过 Hard Expectation-Maximization 迭代改进生物医学实体链接和事件提取
本文提出了一种基于隐含变量的硬 EM 方法,联合进行生物医学实体链接和事件抽取,并通过 Genia 2011 和 BC4GO 两个基准数据集的实验结果展示了该方法在两个任务上均优于强基线模型。
- AMELI:细粒度属性增强的多模态实体链接
提出了属性感知的多模态实体链接技术,利用多模态知识库中每个实体的文本描述、图片和属性值,结合 18,472 个评论和 35,598 个产品的大型数据集 AMELI,揭示属性信息在实体链接过程中的重要性,建立了该领域的基准数据集和解决方案。
- 评估基于领域专属知识库的端到端实体链接:从博物馆藏品学习古代科技
本研究旨在探究使用现代实体链接方法对博物馆收藏数据进行丰富的可能性,结果表明,正交纠正的实体链接模型在该领域的性能明显优于其他现有方法。
- ACLWebIE: 在网络上进行忠实和稳健的信息提取
本文提出了 WebIE 数据集,其中包括 1.6M 个句子及其详细注释。基于此数据集,我们评估了基于生成模型的信息提取模型的跨域和跨语言性能,并提出了三种训练策略。我们的实验表明,实体链接方式得到明显提高。
- 极地鸭与寻找它们的方法:通过鸭子类型和极地盒嵌入增强实体链接
本文提出了 DUCK 方法,在实体表示的空间中注入结构信息,使用实体类型的先前知识,并将关系表示为超球上的盒子,优化模型以将相似类型的实体放置在与其关系对应的盒子中。实验结果表明,该方法在标准实体消歧基准测试上设置了新的最佳结果,提高了模型 - 构建和服务大型开放领域知识图谱
本文介绍了基于领域知识图谱的 Saga 平台,包括训练知识图谱嵌入和创建语义注释服务,以及使用注释 Web 文档来驱动开放领域知识抽取。同时,我们还描述了构建和处理个人知识的平台适应。
- S2abEL:科学表格中的实体链接数据集
本研究介绍了一个用于科学表格中实体链接的数据集 S2abEL,利用神经网络方法对在科学表格中许多基于知识库之外的提及进行实体链接,并在机器学习结果表格中的 8,429 个单元格上展示了显著优于最先进的通用表 EL 方法的表现。
- 实体中心信息抽取的神经网络方法
研究自然语言处理的 NLP 和人工智能领域对实体理解的影响,提出了基于实体概念的方法,并介绍了如何在实体链接任务中使用这种方法。通过核指代文簇难题进行了实验研究,分析了知识库实体集成到文本中的方法并从时间视角分析了实体的演变。
- 应用无监督关键词方法于从出院记录中提取出的概念
在这项研究中,使用临床自然语言处理技术解决了识别和映射标准术语的问题。提出了一种用于提取临床文本中关键概念的 TF-IDF 快捷方法,并使用基于 transformer 的模型设计了两种下游任务,结果表明 SciBERT 模型在结合提出的方 - NASTyLinker: 基于 Transformer 的 NIL 感知可扩展实体链接器
该研究提出了一种新的实体链接方法,利用 Transformers 构建密集表示并考虑了 NIL 实体情况,通过产生相应的提及聚类同时保持良好的实体链接表现,该方法以 NILK 数据集为基础进行了评估并在维基百科列表中的实体链接任务中进行了应 - 揭示未知:使用实体链接技术进行知识库外提及发现
提出了基于 BERT 的实体链接方法 BLINKout,该方法结合了 NIL 表示、NIL 分类和同义词增强等多种技巧,能够识别没有对应知识库实体的提及,并通过本体修剪和版本控制等策略,从正常的知识库内实体链接数据集中构建出不在知识库内的提 - TempEL:连接动态演变和新出现的实体
本文介绍了一个新的实体链接 (TempEL) 数据集,可以量化当前最先进的 EL 模型在知识库描述和提及环境中发生时间变化的实体上的性能表现以及那些以前不存在的新实体的实体链接性能,并发现 (在 temporal snapshots 中) - 联合语音翻译和命名实体识别
本篇论文提出了多任务模型将直接语音翻译和命名实体识别相结合,并与传统串行方法进行了对比,在不降低翻译质量的情况下,在命名实体识别任务上显著提高了性能。
- 基于维基百科概念的噪音文本主动信息检索
本文探究了如何利用 Wikipidia 概念传递查询上下文以提高对嘈杂文本的主动信息检索的性能,并提出了两种模型,利用实体链接将 Wikipedia 主题与相关性模型关联。实验结果表明,Wikipedia 概念与检索结果相关性之间存在明显信 - 短社交媒体文本中实体链接的强韧候选生成
研究了 Tweet 领域中实体链接方法的挑战,提出了一种使用来自维基百科的长上下文表示的混合解决方案,经过实验评估和比较,取得了 0.93 的召回率。