Sep, 2023

KG-MDL:使用 MDL 原则在知识图谱中挖掘图模式

TL;DR现在,越来越多的数据以知识图谱(KGs)的形式可用。虽然这种数据模型支持高级推理和查询,但由于其规模和复杂性,它们仍然难以挖掘。图挖掘方法可以用来从 KGs 中提取模式。然而,这存在两个主要问题。第一,图挖掘方法往往会提取出太多模式,难以被人类分析师解读(模式爆炸)。第二,实际生活中的 KGs 往往与通常用于图挖掘的图形不同:它们是多图,它们的顶点度数往往遵循幂律,并且它们用于建模知识的方式可能会产生虚假的模式。最近,提出了一种名为 GraphMDL + 的图挖掘方法来解决模式爆炸的问题,使用了最小描述长度(MDL)原理。然而,GraphMDL + 和其他图挖掘方法都不适用于未经调整的 KGs。在本文中,我们提出了 KG-MDL,一种基于 MDL 原理的图模式挖掘方法,它可以在给定一个 KG 的情况下生成一个适合人类解释的图模式集,并且是一个无参数和任何时候都可以使用的方法。我们对中等规模 KGs 进行了实验,结果显示我们的方法生成了既适合人类解释又描述了 KG 的模式集。我们展示了这些提取出的模式突出了数据的相关特征:包括用于创建数据的模式和具体事实。我们还讨论了在知识图谱上挖掘图模式与其他类型的图数据相关的问题。