ACLJun, 2024

评估大型语言模型的数学推理能力:重点关注错误识别和纠正

TL;DR我们通过定义四个评估任务,并设计多样的提示来全面评估十一种代表性的 LLM 模型,从考官的角度出发,为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳,而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外,使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。