May, 2024

PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量

TL;DR通过 PertEval 工具集,利用知识不变的扰动以人类样式修正技巧从静态基准中生成即席测试样本,精确评估 LLMs 真正的知识能力。通过对六个最先进的 LLMs 进行重新评估,结果显示 LLMs 在原始基准上明显夸大性能,其中包括 GPT-4 超过 21% 的绝对高估。此外,PertEval 的详细过渡分析可揭示现有 LLMs 知识掌握的弱点,并指导改进的开发,从而发现了一种重要的评估 LLMs 真实知识能力的方法。