Qwen2.5-Math技术报告：通过自我改进迈向数学专家模型

Sep, 2024

Qwen2.5-Math技术报告：通过自我改进迈向数学专家模型

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu...

TL;DR本研究针对数学领域的语言模型存在的数据不足问题，提出了一种创新的自我改进方法，涵盖训练前、训练后和推理阶段。研究发现，采用强化学习的最终奖励模型显著提高了模型的数学推理能力，能够有效处理多种难度的数学问题，推动数学教育与研究的进步。

Abstract

In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of Self-Improvement throughout the entire pipeline, from pre-training and post-tr

发现论文，激发创造

Ape210K：一个大规模且模板丰富的数学应用题数据集

本文提供了一个规模和多样性较大的数学问题数据集，通过使用seq2seq模型并结合常识知识取得了不错的结果，在数学问题求解上具有不可替代的作用。

Sep, 2020

使用大型语言模型生成数学推导

利用大型语言模型(LLMs)进行特定领域的数学推导是一项新兴的研究方向，可以帮助发现模型的局限性，潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导，并研究LLMs在从前提中推导目标方程时的能力。实证结果表明，fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型在所有静态和分布外的测试集上。然而，深入分析发现，fine-tuned模型对于涉及未知符号的扰动(以及较小程度的方程结构更改)更为敏感。此外，我们分析了1.7K个方程和200多个推导，突出了常见的推理错误，如包含不正确、无关或多余的方程，以及跳过推导步骤的倾向。最后，我们探讨了评估数学推导的现有指标的适用性，发现尽管它们能捕捉到对扰动的敏感性等一般属性，但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说，本研究表明在合成数据上训练模型可以提高其数学能力，超越更大的架构。

Jul, 2023

Qwen技术报告

Qwen是我们大型语言模型系列的第一款综合语言模型，包括基础预训练语言模型Qwen和使用人类对齐技术微调的聊天模型Qwen-Chat，前者在多个下游任务中展现了出色的性能，而后者在复杂任务上表现出令人印象深刻的性能，甚至与更大的模型相比都具有先进的工具使用和计划能力。

Sep, 2023

KwaiYiiMath 技术报告

KwaiYiiMath enhances mathematical reasoning abilities by applying Supervised Fine-Tuning and Reinforced Learning from Human Feedback on English and Chinese mathematical tasks, achieving state-of-the-art performance on GSM8k, CMath, and a small-scale Chinese primary school mathematics test set named KMath.

Oct, 2023

通过互动演示教授语言模型自我提升

通过TriPosT训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

跨越多语言数学推理中的语言障碍：洞察与观察

本文首次探索和训练强大的多语种数学推理语言学习模型，通过利用翻译构建了首个多语种数学推理指令数据集MGSM8KInstruct，提出不同的训练策略，构建了名为MathOctopus的强大的多语种数学推理模型，其在少样本情况下表现优于传统开源模型和ChatGPT。

Oct, 2023

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了FineMath，一个用于评估中文LLMs的细粒度数学评估基准数据集。FineMath涵盖了小学数学教学的主要数学概念，并进一步划分为17类数学应用问题，从而能够深入分析LLMs的数学推理能力。所有17类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的LLMs上对FineMath进行了大量实验，并发现中文LLMs的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

SIaM：自我提升的代码辅助大型语言模型数学推理

本研究解决了现有大型语言模型在数学问题求解中的局限性，尤其是对训练数据的过度依赖。提出了一种新颖的方法，通过代码基础的评论模型引导数据构建和质量控制，探索不同的对齐算法以实现模型的持续改进。实验结果显示，所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。

Aug, 2024

语言模型的物理学：第二部分2.2，如何从小学数学问题的错误中学习

本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段，本文展示了该方法相比使用无误数据的预训练，能够显著提高语言模型的推理准确性，具有广泛的潜在影响。研究发现，此技术可实现单次自回归而无需多轮提示，从而简化推理过程。

Aug, 2024