May, 2024

MathBench:利用分层数学基准评估 LLMs 的理论和应用水平

TL;DR通过 MathBench 新的基准测试,我们能够全面评估大型语言模型在数学能力方面的表现,首次提供了一个多维度视角,从基础算术到大学数学的不同阶段评估模型的能力,旨在提高对大型语言模型在数学能力方面的评估,为其知识水平和问题解决技能提供更深入的理解。