JiuZhang3.0：通过训练小型数据合成模型高效提升数学推理能力

May, 2024

JiuZhang3.0：通过训练小型数据合成模型高效提升数学推理能力

JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models

Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao...

TL;DR基于 GPT-4 的数据合成能力，我们提出了一种通过训练小型语言模型来合成数学问题，以高效生成足够高质量的预训练数据的有效方法，并在数学推理数据集上展现了最先进的性能。

Abstract

mathematical reasoning is an important capability of large language models~(LLMs) for real-world applications. To enhance this capability, existing work either collects large-scale math-related texts for pre-training

mathematical reasoning large language models gpt-4 data synthesis pre-training

发现论文，激发创造

MathGenie: 利用问题逆向翻译生成合成数据以提升 LLMs 的数学推理能力

MathGenie 是一种从小规模的问题解决数据集（称为种子数据）生成多样且可靠的数学问题的新方法，通过增加种子数据的真实解决方案，并训练一个回译模型将增加的解决方案翻译回新问题，从而产生与代码集成的问题解决方案，进而提供理性基础验证策略，该方法通过对新收集的数据训练从 7B 到 70B 范围的预训练模型，形成了 MathGenieLM 系列模型，这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型，达到了最新的性能水平，尤其是 MathGenieLM-InternLM2 在 GSM8K 上达到了 87.7％的准确率，在 MATH 上达到了 55.7％的准确率，获得了开放源语言模型的最佳综合得分。

Feb, 2024

JiuZhang：数学问题理解的中文预训练语言模型

本研究旨在提高机器的数学智能，通过设计一种中文数学预训练语言模型，发展出一种新型的课程预训练方法来提高模型学习数学 PLM，并在离线 / 在线实验中获得了有效性的证明。

Jun, 2022

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

JiuZhang 2.0: 一个统一的中文预训练语言模型，用于多任务数学问题求解

本文提出了一个联合学习的模型 “JiuZhang 2.0”，这个模型通过 Mixture-of-Experts 架构建模，实现多任务求解，通过形式化的方式指出了如何采用跨任务共享思想来提高模型的问题求解能力，并提出了利用大型语言模型集成化不断细化解决方案的方法，对模型的有效性进行了全面实验证明。

Jun, 2023

DeepSeek-Prover: 通过大规模合成数据推进 LLMs 中的定理证明

基于大规模合成数据，使用 Lean 4 proof 数据生成方法，我们的模型在定理生成和解决题目方面取得了卓越的成果，证明了合成数据对提高 LLMs 中的定理证明能力的潜力。

May, 2024

WizardMath：通过增强进化教学赋能大型语言模型的数学推理

通过应用 RLEIF 方法于数学领域，我们提出了 WizardMath 以增强 Llama-2 的数学推理能力，实验证明我们的模型在 GSM8k 和 MATH 等数学推理评估上远超其他开源 LLMs，甚至胜过了 ChatGPT-3.5 等模型。

Aug, 2023

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

LLMs 数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现 SOTA 性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020