Oct, 2024

ReasonAgain:利用可提取的符号程序评估数学推理

TL;DR本研究针对现有数学数据集在评估大型语言模型(LLMs)推理能力时的局限性,提出了使用符号程序进行自动化评估的新方法。通过提取知名数学数据集中的程序,研究表明这些程序能够有效 encapsulate 解决原文本问题所需的合理推理,而我们对不同输入输出对的应用评估显示出最先进的 LLMs 在数学推理上存在显著脆弱性。