Aug, 2024

通过教育课程评估语言模型的数学推理能力

TL;DR本研究探讨了语言模型在数学能力方面的评估缺口,提出了通过教育标准来分析语言模型理解数学技能的能力。我们开发了两个数据集,发现语言模型在标记和验证与问题相关的标准时存在困难,并且生成的问题往往与标准不完全一致。这项研究为理解语言模型解决某些数学问题的难易程度提供了新的视角。