Sep, 2023

基于循环评估的配对知识图谱-文本数据集构建

TL;DR使用知识图谱和文本配对的数据集可以训练生成文本和生成知识图谱的前向和反向神经模型,但在配对不等效的数据集上训练的模型可能会导致更多的错误生成和较差的回想。本文通过生成具有不同噪声水平的数据集并进行实证验证了这一点,并通过循环评估发现人工创建的WebNLG比自动生成的TeKGen和T-REx要好。基于这些观察,我们构建了一个名为LAGRANGE的新的改进数据集,使用旨在改善知识图谱和文本之间等效性的启发式方法,并展示了每个启发式方法对循环评估的影响。我们还使用大型语言模型构建了两个合成数据集,并观察到这些数据集有助于在文本的循环生成上取得显著性能,但在知识图谱的循环生成上不够有效,可能是因为缺乏一致的底层本体论。