EMNLPNov, 2023

增加多语言知识图谱中文本信息的覆盖范围和精确度

TL;DR自然语言处理和计算机视觉领域中近期的研究一直在利用知识图谱中可用的文本信息,例如实体名称和描述,来将神经模型与高质量的结构化数据对接。然而,在非英语语言中,可用的文本信息的数量和质量相对较少。为了解决这个问题,我们提出了自动知识图谱增强(KGE)的新任务,并对英语和非英语语言之间的文本信息的数量和质量差异进行了深入研究。作为对增加多语言覆盖率和实体名称、描述精确度的问题的研究,我们呈现了 M-NTA,一种新的无监督方法,结合了机器翻译(MT),网络搜索(WS)和大型语言模型(LLMs)以生成高质量的文本信息,并研究了增加非英语文本信息的多语言覆盖率和精确度对实体链接、知识图谱补全和问题回答的影响。作为我们朝着更好的多语种知识图谱的努力的一部分,我们还介绍了 WikiKGE-10,第一个跨 7 个语系评估 10 种语言中的 KGE 方法的人工策划的基准。