SIaM：自我提升的代码辅助大型语言模型数学推理

Aug, 2024

SIaM：自我提升的代码辅助大型语言模型数学推理

SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models

Dian Yu, Baolin Peng, Ye Tian, Linfeng Song, Haitao Mi...

TL;DR本研究解决了现有大型语言模型在数学问题求解中的局限性，尤其是对训练数据的过度依赖。提出了一种新颖的方法，通过代码基础的评论模型引导数据构建和质量控制，探索不同的对齐算法以实现模型的持续改进。实验结果显示，所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。

Abstract

There is a growing trend of teaching Large Language Models (LLMs) to solve mathematical problems through coding. Existing studies primarily focus on prompting powerful, closed-source models to generate seed training data followed by in-domain →

发现论文，激发创造

MathCoder：深化数学推理的 LLMs 中无缝代码集成

我们提出了一种方法，通过对开源语言模型进行微调，使其能够使用代码进行建模，并推导出数学方程，从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法，称为MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了MathCoder模型，一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder模型在MATH（45.2％）和GSM8K（83.9％）数据集上取得了开源语言模型的最新得分，远远超过其他开源方案。值得注意的是，MathCoder模型不仅在GSM8K和MATH上超过了ChatGPT-3.5和PaLM-2，还超过了GPT-4在竞争级别的MATH数据集上。数据集和模型将在此URL发布。

Oct, 2023

通过互动演示教授语言模型自我提升

通过TriPosT训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

迭代问题组合增强数学问题

通过引入MMIQC数据集以及IQC增强方法，该研究利用大型语言模型，提升数学推理能力，提出了Mistral-7B-MMIQC模型，并在MATH比赛上实现36.0%的准确率，相比之前的SOTA模型增加了5.8%。

Jan, 2024

MathGenie: 利用问题逆向翻译生成合成数据以提升LLMs的数学推理能力

MathGenie是一种从小规模的问题解决数据集（称为种子数据）生成多样且可靠的数学问题的新方法，通过增加种子数据的真实解决方案，并训练一个回译模型将增加的解决方案翻译回新问题，从而产生与代码集成的问题解决方案，进而提供理性基础验证策略，该方法通过对新收集的数据训练从7B到70B范围的预训练模型，形成了MathGenieLM系列模型，这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型，达到了最新的性能水平，尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7％的准确率，在MATH上达到了55.7％的准确率，获得了开放源语言模型的最佳综合得分。

Feb, 2024

MATHSENSEI：数学推理工具增强的大型语言模型

MATHSENSEI 是一个工具增强的大型语言模型，通过添加知识检索、程序执行和符号方程求解的工具，针对数学推理问题进行评估，表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到，TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著，且随着问题复杂程度和所需知识的增加而提高。

Feb, 2024

ChatGLM-Math: 使用自我批评流程提高大型语言模型在数学问题求解中的能力

通过自我评审流程，大型语言模型（LLMs）能够在保持语言能力的同时提升数学问题解决能力，从而有效增强LLMs在实际应用中的性能。

Apr, 2024

大型语言模型能否复制开放式数学问题上的ITS反馈？

智能辅导系统中的自动反馈组件通常采用基于模板的方法，但在开放式数学问题中存在大量不同的错误类型。本研究使用大型语言模型来生成开放式数学问题的反馈，发现尽管能够学习反馈的格式，但无法完全理解学生的数学错误。

May, 2024

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的MathChat基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发MathChat sync这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似MathChat sync这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

轻量级大型语言模型在数学文字问题中的逻辑对比推理

本研究旨在提升轻量级大型语言模型在数学推理任务中的表现，填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集，该方法结合了语义和逻辑相似性，在SVAMP数据集上实现了15.8%的性能提升，并在GSM8K数据集上取得了21.5%的改进，为未来的推理研究提供了重要的见解。

Aug, 2024