May, 2023

大型语言模型能力的可预测性研究 —— 以 BIG-bench 为例

TL;DR研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究,发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测,并提出了寻找一个信息性子集用于评估新模型家族的问题,整合了 BIG-bench Hard 的信息,并将规模缩小了三倍。