Mar, 2025

StepMathAgent: 通过错误树评估数学过程的逐步代理

TL;DR本文针对现有数学能力评估方法只关注最终答案的问题,提出了一种基于错误树的新型数学过程评估代理StepMathAgent。该代理通过四个内部核心操作和四个外部扩展模块进行高级评估,实验结果显示其在准确性和适用性上优于现有方法,对各种场景具有广泛的影响。