LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

Jun, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs

Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour

TL;DR大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了1,958个关于各种数学学科的问题，并配以详细的层级链。通过使用MaTT基准评估不同的大语言模型，我们发现最先进的模型GPT-4在多项选择场景下仅达到54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了24.2个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对GPT-4生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Abstract

large language models (LLMs) demonstrate impressive capabilities in mathematical reasoning. However, despite these achievements, current evaluations are mostly limited to specific mathematical topics, and it rema