OpenMathInstruct-2：利用大规模开源指令数据加速数学AI

Oct, 2024

OpenMathInstruct-2：利用大规模开源指令数据加速数学AI

OpenMathInstruct-2: Accelerating AI for Math with Massive Open-Source Instruction Data

Shubham Toshniwal, Wei Du, Ivan Moshkov, Branislav Kisacanin, Alexan Ayrapetyan...

TL;DR本研究解决了大语言模型在数学推理方面缺乏开源训练数据的问题。通过对数据合成的精心消融实验，提出了生成高质量数学推理微调数据集OpenMathInstruct-2，显著增大数据集规模并提升模型性能，取得了15.9%的准确性提升。该工作提供了重要的数据和模型资源，以促进后续开源研究。

Abstract

Mathematical Reasoning continues to be a critical challenge in large language model (LLM) development with significant interest. However, most of the cutting-edge progress in Mathematical Reasoning with LLMs has

发现论文，激发创造

元数学：为大型语言模型建立自己的数学问题

我们提出了一个名为MetaMath的精细调整的语言模型，专注于数学推理，实验证明MetaMath在数学推理方面表现优于开源语言模型。

Sep, 2023

OpenMathInstruct-1：一个180万数学指导调优数据集

利用合成数据集训练大型语言模型（LLMs）的巨大潜力已被展示，尤其是用于获得有针对性的技能。本研究基于开源LLMs的最新进展和引导创新，通过某些粗暴的扩展构建了一个包含180万个问题-解决方案对的数学指导调整数据集OpenMathInstruct-1，并在GSM8K和MATH两个热门数学推理基准上取得了与最佳gpt-蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和OpenMathInstruct-1数据集。

Feb, 2024

MathGenie: 利用问题逆向翻译生成合成数据以提升LLMs的数学推理能力

MathGenie是一种从小规模的问题解决数据集（称为种子数据）生成多样且可靠的数学问题的新方法，通过增加种子数据的真实解决方案，并训练一个回译模型将增加的解决方案翻译回新问题，从而产生与代码集成的问题解决方案，进而提供理性基础验证策略，该方法通过对新收集的数据训练从7B到70B范围的预训练模型，形成了MathGenieLM系列模型，这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型，达到了最新的性能水平，尤其是MathGenieLM-InternLM2在GSM8K上达到了87.7％的准确率，在MATH上达到了55.7％的准确率，获得了开放源语言模型的最佳综合得分。

Feb, 2024

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含200万个数学问题-答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如LLaMA-2和Mistral）进行Fine-tuning，MathScale-7B在Math Word Problems基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

JiuZhang3.0：通过训练小型数据合成模型高效提升数学推理能力

基于GPT-4的数据合成能力，我们提出了一种通过训练小型语言模型来合成数学问题，以高效生成足够高质量的预训练数据的有效方法，并在数学推理数据集上展现了最先进的性能。

May, 2024

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的MathChat基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发MathChat sync这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似MathChat sync这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的Llama 2版本（MAmmoTH和MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

Skywork-Math: 大型语言模型中的数学推理数据缩放定律--故事将继续

研究了增强大型语言模型的数学推理能力的潜在因素，并提出了一种数据缩放定律。通过引入基于Skywork-MathQA数据集的Skywork-Math模型系列，指出增加数据量可以提高模型质量。通过两阶段数据综合和模型SFT流程，包括三种不同的增强方法和不同难度水平的种子问题集，提供了Skywork-MathQA数据集的数量和质量，从而实现了更高的性能。同时，为了研究和工业应用，提供了若干实践经验来提高大型语言模型的数学推理能力。

Jul, 2024

无限数学：一种可扩展的程序化数学推理指令调优数据集

本研究解决了现有大规模数据集创建中所面临的种子数据需求和高计算成本的挑战。我们提出的InfinityMATH是一个可扩展的指令调优数据集，通过将数字与数学问题解耦，促进了数据合成的灵活性和高效性。实验证明，使用该数据集进行微调的模型在各类基准测试中表现出显著的性能提升，拓宽了模型在多种数学问题上的适用性。

Aug, 2024

舍赫拉莎德：利用问题链评估大型语言模型的链式思维数学推理

本研究针对大型语言模型（LLMs）在数学推理能力评估中存在基准测试过于简单的缺陷，提出了自动化生成更具挑战性的数学推理基准的方案——Scheherazade。通过前向和后向链法，我们发现虽然前沿模型在问题链数目增加时表现显著下降，但OpenAI的o1-preview在后向链基准测试中表现反而更佳，显示出新方法的潜在影响力。

Sep, 2024