Jun, 2024
Mathador-LM:大型语言模型上的数学推理动态评估
Mathador-LM: A Dynamic Benchmark for Mathematical Reasoning on Large
Language Models
TL;DRMathador-LM是用于评估大型语言模型在数学推理上的新基准,结合了规则解释、规划和问题求解。该基准受Mathador游戏启发,其目标是使用给定的一组基本数字和简单的规则,通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能,并动态生成基准实例,以符合目标难度级别。因此,我们的基准缓解了测试集泄露到训练数据中的问题,这是经常破坏流行基准的一个问题。此外,我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明,现代模型在Mathador-LM上面临困难,得分显著低于平均5年级学生,这与它们在流行数学推理基准上的强大表现形成鲜明对比。