Aug, 2023

开发一个可扩展的基准测试,用于评估大型语言模型在知识图谱工程中的表现

TL;DR大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题,我们引入了一个基于知识图谱工程的基准评测框架,涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明,尽管具有一定的实用性,大型语言模型在零样本生成知识图谱方面尚不适用。因此,我们的 LLM-KG-Bench 框架提供了 LLM 响应的自动评估和存储机制,以及统计数据和可视化工具,以支持指导数据和模型性能的追踪。