ReasonAgain:利用可提取的符号程序评估数学推理
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
大型语言模型在自然语言理解任务中取得了显著的进展,但要实现真正的人工智能通用智能还存在差距,特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集,该数据集具有使用Python代码解释器的能力,解决了这一挑战。此外,我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议,在GSM8K和MATH数据集上显著提升了7B参数LLM性能。我们致力于推进LLMs中的数学推理领域,并且我们已经公开了模型检查点并将数据集公开可用,希望这将促进社区内的进一步研究和发展。
Jan, 2024
MathGenie是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从7B到70B范围的预训练模型,形成了MathGenieLM系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7%的准确率,在MATH上达到了55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
MATHSENSEI 是一个工具增强的大型语言模型,通过添加知识检索、程序执行和符号方程求解的工具,针对数学推理问题进行评估,表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到,TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著,且随着问题复杂程度和所需知识的增加而提高。
Feb, 2024
通过有效性和冗余性评估推理质量,我们提出了ReasonEval方法,该方法在数学任务中表现优异,并发现提高最终答案准确性并不一定能改善复杂数学问题推理步骤的整体质量。
Apr, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
本研究旨在提升轻量级大型语言模型在数学推理任务中的表现,填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集,该方法结合了语义和逻辑相似性,在SVAMP数据集上实现了15.8%的性能提升,并在GSM8K数据集上取得了21.5%的改进,为未来的推理研究提供了重要的见解。
Aug, 2024
本研究针对大型语言模型(LLMs)在数学推理能力上的不足,通过引入GSM-Symbolic基准,解决了现有评估的局限性,提供了更可靠的度量指标。研究发现,尽管LLMs在GSM8K基准测试上表现改进,但其真实的数学推理能力仍然不佳,特别是在问题中添加额外条款时性能急剧下降。这一发现为理解LLMs的能力和限制提供了新的视角。
Oct, 2024
本研究针对当前大语言模型在数学推理过程中常见的计算和语义理解错误问题,提出了PROVE框架,通过程序为基础的验证方法过滤潜在的不正确推理路径。实验结果表明,PROVE在多项数学基准测试中显著提高了模型的准确性,体现了其作为数学推理任务有效启发式工具的潜力。
Oct, 2024
本研究旨在解决大型语言模型在数学推理中表现不足的问题,通过开发一种自动化方法生成高质量的监督数学数据集。该方法结合了大语言模型的直观非正式化优势和数学求解器的精确符号推理能力,生成的数据在实证实验中表现出色,使得LLaMA-2和Mistral在重新对齐后优于现有的同类模型。
Dec, 2024