语料库级细粒度实体类型标注
本研究基于嵌入式方法,提出了 FIGMENT 来解决语料库实体类型划分问题,并在知识库完成中应用。FIGMENT 由全局模型和上下文模型组成,分别得分后进行综合评分,其性能优于依赖于开放信息提取系统获取关系的实体类型划分方法。
Jun, 2016
本文研究自然语言中实体的多层表示学习方法,包括字符级、单词级和实体级。我们比较了各级别上的现有学习方法,确认每个级别的表示都提供互补信息,同时提出将三个级别的表示联合起来可以大幅度提高细粒度实体类型识别的性能,而添加实体描述信息能够进一步增强多层次的实体表示。
Jan, 2017
该论文介绍了一种可以构建鲁棒实体链接模型的方法,该方法将注意力放在建立细粒度实体属性的模型上,具有更好的泛化性能,使用维基百科类别的大型库存来远程标记数据并训练实体类型模型,使用软类型预测将提及链接到最相似的候选实体上。
Sep, 2019
本文提出了一种无监督实体类型框架,通过结合符号和分布语义,使用语言结构学习通用的嵌入,并开发了一种新型的联合层次聚类和链接算法来对所有提及进行类型。该框架不依赖于任何注释数据、预定义的打字架构或手工特征,因此可以快速适应新的领域、体裁和语言。同时,它具有很大的灵活性,可以包括语言结构等来改进特定上下文表示。
Mar, 2016
本文提出了一种神经架构模型,用于将 fine-grained 语义类型分配给实体提及,并学习利用比以前更多的语义上下文信息(文档和句子级别)的分布式语义表示。实验结果表明,该方法在三个基准数据集上取得了最先进的结果,而不需要手工特征。
Apr, 2018
这篇论文提出了一种上下文相关细粒度实体类型标注的方法,通过基于知识库提取实体和其类型,限制在本地上下文中可以推导的标签集,实验结果表明可以有效改善标注的精度。
Dec, 2014
本文提出了一种基于神经网络的模型,联合学习实体提及及其上下文表示,通过使用非参数的变体铰链损失函数解决训练数据含噪的问题,并证明了该模型表现优于现有技术,同时可以实现知识迁移。
Feb, 2017
通过实体链接,结合上下文信息和查询结果,我们提出了一种深度神经模型,用于精细化实体类型分类。在两个数据集上的实验结果表明,相对当前最先进水平,我们的方法分别取得了超过 5%的绝对严格准确度提高。
Sep, 2019
本文提出了一个包含 4800 个手工标注的中文语料库,其用于细粒度实体分类。在实验中,我们展示了一些典型细粒度实体分类模型在我们的数据集上的表现,并显示了通过跨语言迁移学习提高中文细粒度实体分类的可能性。
Apr, 2020
OnEFET 是一种无需人工注释的高质量细粒度实体类型方法,通过对本体结构进行信息扩充,并利用训练样本扩充和话题信息的粗到细的分层方法,超越现有的零样本方法,赶上有监督方法。
Oct, 2023