Apr, 2024

大型语言模型的心理测量辅助基准测试:数学能力的案例研究

TL;DR借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行了比较。同时发布了四个数据集,用于评估和比较 LLM 在中小学数学和科学方面的熟练程度与人口的水平。