Jul, 2024

metabench” -- 测量大型语言模型一般能力的稀疏基准测试

TL;DR利用超过5000个大型语言模型的数据,从六个基准测试中提取出信息量最大的项目,生成一个稀疏基准测试benchmark,其组合总体积不到原始六个基准测试总体积的3%,并能以最小均方根误差重构每个原始基准测试的分数,总体积的重构均方根误差为0.8%,并且具有单一的共同因子,与总体积的斯皮尔曼相关性为0.93。