Feb, 2024

用于稳健评估推理性能和推理差距的功能基准

TL;DR我们提出了一个用于鲁棒评估语言模型推理能力的框架,使用功能变体基准。在静态问题版本与功能变体快照之间,解决推理测试的模型在性能上不应有差异。我们将 MATH 基准的相关片段重写为其功能变体 MATH (),其他基准的函数化会随之进行。通过对 MATH () 的快照评估当前最先进的模型,我们发现存在推理差距 - 静态和功能准确性之间的百分比差。我们发现,在静态基准上表现良好的最先进的闭合和开放权重模型中,推理差距从 58.35% 到 80.31% 不等,激励产生 “gap 0” 模型建设的开放问题。评估代码、新的评估数据集以及三个 MATH () 快照可以在此 https URL 处公开获取。