Jun, 2024

LLM 不是智能思考者:引入数学主题树基准评估来全面评估 LLMs

TL;DR大语言模型在数学推理方面展示了令人印象深刻的能力,但目前的评估仅限于特定的数学主题,不清楚大语言模型是否真正参与了推理。为了填补这些研究空白,我们提出了数学主题树(MaTT)基准,这是一个具有挑战性和结构化的基准,提供了 1,958 个关于各种数学学科的问题,并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型,我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54%的准确度。有趣的是,即使在使用思维链提示的情况下,我们也几乎没有观察到明显的改进。此外,当问题在没有可选项的情况下提供时,大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明,即使是在相同的数学领域中的紧密相关子主题之间,也存在显着差异。为了找出大语言模型性能背后的原因,当有可选项时,我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是,在模型提供正确答案的情况下,只有 53.3%的解释被认为是完整和准确的,即模型进行了真正的推理。