Jun, 2024

Mathador-LM:大型语言模型上的数学推理动态评估

TL;DRMathador-LM 是用于评估大型语言模型在数学推理上的新基准,结合了规则解释、规划和问题求解。该基准受 Mathador 游戏启发,其目标是使用给定的一组基本数字和简单的规则,通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能,并动态生成基准实例,以符合目标难度级别。因此,我们的基准缓解了测试集泄露到训练数据中的问题,这是经常破坏流行基准的一个问题。此外,我们对 Mathador-LM 中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明,现代模型在 Mathador-LM 上面临困难,得分显著低于平均 5 年级学生,这与它们在流行数学推理基准上的强大表现形成鲜明对比。