Skywork-Math: 大型语言模型中的数学推理数据缩放定律--故事将继续

Jul, 2024

Skywork-Math: 大型语言模型中的数学推理数据缩放定律--故事将继续

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

Liang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang...

TL;DR研究了增强大型语言模型的数学推理能力的潜在因素，并提出了一种数据缩放定律。通过引入基于Skywork-MathQA数据集的Skywork-Math模型系列，指出增加数据量可以提高模型质量。通过两阶段数据综合和模型SFT流程，包括三种不同的增强方法和不同难度水平的种子问题集，提供了Skywork-MathQA数据集的数量和质量，从而实现了更高的性能。同时，为了研究和工业应用，提供了若干实践经验来提高大型语言模型的数学推理能力。

Abstract

In this paper, we investigate the underlying factors that potentially enhance the mathematical reasoning capabilities of large language models (LLMs). We argue that the →

发现论文，激发创造

SkyMath: 技术报告

通过自我比较微调，SkyMath增强了Skywork-13B-Base的数学推理能力，并在GSM8K上胜过了所有已知规模相似的开源模型，创造了新的SOTA性能。

Oct, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

LLMs数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现SOTA性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含200万个数学问题-答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如LLaMA-2和Mistral）进行Fine-tuning，MathScale-7B在Math Word Problems基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

常见七B语言模型已经具备强大的数学能力

LLaMA-2 7B模型通过简单的方法扩展数据样本，证明了其出色的数学能力及可靠性，适用于GSM8K和MATH基准测试，并提供了关于不同推理复杂性和错误类型的扩展行为的见解。

Mar, 2024

FineMath：面向中文大语言模型的细粒度数学评估基准

为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了FineMath，一个用于评估中文LLMs的细粒度数学评估基准数据集。FineMath涵盖了小学数学教学的主要数学概念，并进一步划分为17类数学应用问题，从而能够深入分析LLMs的数学推理能力。所有17类数学应用问题都根据解决这些问题所需的推理步骤数量进行手动注释其难度级别。我们在广泛的LLMs上对FineMath进行了大量实验，并发现中文LLMs的数学推理能力仍有相当大的提升空间。我们还对先前被忽视的评估过程和方法进行了深入分析。这两个因素显着影响了模型结果和我们对其数学推理能力的理解。该数据集将很快公开发布。

Mar, 2024

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的Llama 2版本（MAmmoTH和MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

Mathador-LM：大型语言模型上的数学推理动态评估

Mathador-LM是用于评估大型语言模型在数学推理上的新基准，结合了规则解释、规划和问题求解。该基准受Mathador游戏启发，其目标是使用给定的一组基本数字和简单的规则，通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能，并动态生成基准实例，以符合目标难度级别。因此，我们的基准缓解了测试集泄露到训练数据中的问题，这是经常破坏流行基准的一个问题。此外，我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明，现代模型在Mathador-LM上面临困难，得分显著低于平均5年级学生，这与它们在流行数学推理基准上的强大表现形成鲜明对比。

Jun, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

OpenMathInstruct-2：利用大规模开源指令数据加速数学AI

本研究解决了大语言模型在数学推理方面缺乏开源训练数据的问题。通过对数据合成的精心消融实验，提出了生成高质量数学推理微调数据集OpenMathInstruct-2，显著增大数据集规模并提升模型性能，取得了15.9%的准确性提升。该工作提供了重要的数据和模型资源，以促进后续开源研究。

Oct, 2024