Oct, 2023

KGQUIZ:评估大型语言模型中编码知识的泛化能力

TL;DR大型语言模型(LLMs)在知识密集型任务上表现出色,但如何系统评估LLMs的知识能力及其在不同领域和任务中的知识泛化能力仍然不为人所知。为此,我们提出了KGQuiz,这是一个基于知识的全面评估框架,包含了五个任务,从简单到复杂地涵盖了三个领域的知识。通过在KGQuiz基准测试中对十种开源和黑盒LLMs进行广泛实验,我们发现LLMs在简单的知识问答任务中表现出色,但在需要更复杂推理或领域特定事实的设置和上下文中仍然存在挑战。我们将KGQuiz视为一个测试平台,用于分析不同领域和任务格式下性能的微妙变化,并最终理解、评估和改进LLMs在广泛知识领域和任务中的知识能力。