Jun, 2023
LLM认知能力的高效测量:自适应测试视角
Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective
TL;DR提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对ChatGPT等6种模型进行了细粒度诊断,并通过不同测试发现GPT4模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。