Apr, 2024

使用大规模知识图谱评估大型语言模型的真实性

TL;DR提出了GraphEval方法使用大规模测试数据集来评估大型语言模型的性能,该方法通过从包含1000万多个事实的大型知识图中检索测试数据集来简化评估过程,并创造了一个判断模型来估计语言模型所给出答案的正确性。实验证明判断模型的事实评估与语言模型的生成输出的正确性密切相关,并且大大降低了评估成本,同时还为后续改进确保语言模型输出的事实性提供了有价值的见解。