Apr, 2024
大型语言模型的心理测量辅助基准测试:数学能力的案例研究
PATCH -- Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Mathematics Proficiency
Qixiang Fang, Daniel L. Oberski, Dong Nguyen
TL;DR借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。