介绍了 TypeNet 数据集,该数据集由 1941 个类型组成,通过人工注释从 1081 个 Freebase 类型映射到 WordNet。本文还探讨了几种与先进系统可比的模型,以及在标准提及类型损失的基础上结合层次结构损失的技术,是未来研究的第一步。
Nov, 2017
本文提出了使用双线性映射方法集成层次信息的新方法,相比于平面预测在实体链接和细粒度实体类型分类方面有显著的改进,并在基准 FIGER 数据集上实现了最新的最佳结果。
Jul, 2018
本文提出了一种无监督实体类型框架,通过结合符号和分布语义,使用语言结构学习通用的嵌入,并开发了一种新型的联合层次聚类和链接算法来对所有提及进行类型。该框架不依赖于任何注释数据、预定义的打字架构或手工特征,因此可以快速适应新的领域、体裁和语言。同时,它具有很大的灵活性,可以包括语言结构等来改进特定上下文表示。
Mar, 2016
该论文介绍了一种可以构建鲁棒实体链接模型的方法,该方法将注意力放在建立细粒度实体属性的模型上,具有更好的泛化性能,使用维基百科类别的大型库存来远程标记数据并训练实体类型模型,使用软类型预测将提及链接到最相似的候选实体上。
Sep, 2019
介绍了一种新的实体类型任务,使用头词来进行大规模远程监督,利用多任务目标训练模型,实现对实体类型的预测,对这一方法进行了实验评估并提供相关数据和模型。
本文提出了一种无监督的零样本实体类型的方法,该方法可以弹性地识别新定义的类型,并利用 FREEBASE 的布尔函数进行自我推理。我们在包括生物领域的各种数据集上评估了该系统,并证明了它在超出领域的数据集上优于监督学习方法与其他零样本细粒度关键词方法。
Jul, 2019
本文提出了一种神经架构模型,用于将 fine-grained 语义类型分配给实体提及,并学习利用比以前更多的语义上下文信息(文档和句子级别)的分布式语义表示。实验结果表明,该方法在三个基准数据集上取得了最先进的结果,而不需要手工特征。
Apr, 2018
本研究提出了一种利用细粒度实体类型推断模型生成具备人类可读性,且能够直接用于实体相关任务的实体表示向量的方法,并针对特定领域实体优化表征,通过少量规则增加领域知识以提高性能。
Apr, 2020
本文提出了一个包含 4800 个手工标注的中文语料库,其用于细粒度实体分类。在实验中,我们展示了一些典型细粒度实体分类模型在我们的数据集上的表现,并显示了通过跨语言迁移学习提高中文细粒度实体分类的可能性。
通过实体链接,结合上下文信息和查询结果,我们提出了一种深度神经模型,用于精细化实体类型分类。在两个数据集上的实验结果表明,相对当前最先进水平,我们的方法分别取得了超过 5%的绝对严格准确度提高。