COMBO: 一个完整的开放式知识图谱规范化基准测试
构建大型开放知识库(OKBs)对于许多知识驱动的 Web 应用程序(如 Web 搜索)至关重要。然而,OKBs 中的名词短语和关系短语常常存在冗余和歧义,因此需要研究 OKB 规范化。本文提出了一种名为 MulCanon 的多任务学习框架,用于解决 OKB 规范化问题,并通过扩散模型在软聚类过程中改进名词短语的表示,以获得更准确的表示。MulCanon 统一了这些子任务的学习目标,并采用两阶段多任务学习范式进行训练。对知名 OKB 规范化基准的彻底实验研究验证了 MulCanon 能够实现具有竞争力的规范化结果。
Mar, 2024
本文提出了一个基于因子图模型的框架 JOCL,该框架整合了 OKB 规范化和链接两个关键任务,可以灵活地结合不同的信号,并能够扩展以适应任何新信号。在两个大规模 OIE 三元组数据集上进行的彻底实验研究表明,我们的框架在 OKB 规范化和链接任务方面的平均 F1(准确性)方面均优于所有基线方法。
Dec, 2022
利用跨语言的开放信息提取的最新进展,通过多语言代词消解和保留仅有实体链接三组,构建了第一个含有六种语言的全面的开放式知识库 (mOKB6),并通过基线模型的实验进行分析。
Nov, 2022
提出了一种新的无监督方法 CMVC,它利用了知识的 fact view 和 context view 来对开放知识库(OKB)进行规范化,通过多视角特征聚类算法来学习视角特定的嵌入,进而对概念和关系短语进行聚类来达到规范化的目的。实验表明该方法在多个真实 OKB 数据集上表现优异。
Jun, 2022
本文提出一种名为 CUVA 的联合模型,使用变分自编码器来进行实体和关系短语的嵌入式特征提取与聚类,改善了 open knowledge graphs 中实体重复和模糊性的问题,并在多个基准测试中证明了其优于现有最先进技术的表现。同时为此也构建了一个新的数据集 CanonicNell 用于评估实体归一化系统。
Dec, 2020
本文介绍了一种新方法 Canonicalization using Embeddings and Side Information(CESI),通过学习 Open Knowledge Bases 的嵌入向量,对其中的重复和模糊事实进行规范化,在多个真实数据集上进行的实验表明 CESI 的有效性。
Feb, 2019
构建大型开放知识库(OKB)对移动计算领域的许多应用至关重要,如今存在可组织和消除 OKB 中重复和语义模糊的短语以及保护个人隐私和数据时效性的问题,本研究提出了一种多任务学习框架 MulCanon,通过利用扩散模型中的噪声特征实现机器取消学习效果,从而解决 OKB 规范化中的机器取消学习问题。该框架通过聚类算法和知识图嵌入进一步促进规范化过程,实现了高级的机器取消学习效果,并在 OKB 规范化数据集上进行了全面的实验验证。
Oct, 2023
该研究提出了一种用于高度关联知识图谱 (HKGs) 补全的方法,该方法引入了两个新修订:一是用轻量级实体 / 关系嵌入处理技术替换计算量大的图神经网络模块以提高计算效率;二是增加一个定向于合格证的辅助训练任务以提高该方法的预测能力,并且该方法在三个基准数据集上的实验中始终优于 STARE,计算效率显著提高。
Apr, 2021