MAmmoTH: 通过混合指导调整构建数学通才模型

Sep, 2023

MAmmoTH: 通过混合指导调整构建数学通才模型

MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang...

TL;DRMAmmoTH 是一系列为数学问题解决而特别定制的开源大型语言模型，通过混合的证明链和思考程序的理论，提供了广泛的数学领域覆盖，取得了显著的性能提升。

Abstract

We introduce mammoth, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The

mammoth large language models math problem-solving hybrid rationales math generalist models

发现论文，激发创造

MAmmoTH2：网络中的指令扩展

我们提出了一种新的方法，通过从预训练的网络语料库中高效地收集 1000 万条自然存在的指导数据来增强大型语言模型 (LLMs) 的推理能力，从而显著提高了模型在推理基准测试中的性能，并在多个推理和聊天机器人基准测试中获得了最先进的性能。

May, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

MuMath-Code：结合多角度数据增强的数学推理工具使用大型语言模型

我们提出了一种结合外部工具和数据增强的方法，并采用两阶段的训练策略，以实现数学推理能力的增强。经过大量实验证明，我们的方法在数学推理任务上取得了新的最佳性能。

May, 2024

OpenMathInstruct-1：一个 180 万数学指导调优数据集

利用合成数据集训练大型语言模型（LLMs）的巨大潜力已被展示，尤其是用于获得有针对性的技能。本研究基于开源 LLMs 的最新进展和引导创新，通过某些粗暴的扩展构建了一个包含 180 万个问题 - 解决方案对的数学指导调整数据集 OpenMathInstruct-1，并在 GSM8K 和 MATH 两个热门数学推理基准上取得了与最佳 gpt - 蒸馏模型相竞争的成绩。我们以商业许可证发布了我们的代码、模型和 OpenMathInstruct-1 数据集。

Feb, 2024

mCoT: 多语言指导调整以提升语言模型的推理一致性

通过多语言推理一致性研究，我们构建了第一个大规模的多语言数学推理数据集 mCoT-MATH，然后引入多语言 CoT 指令调节以提高模型的推理能力和一致性。我们的 7B 参数模型 mCoT 在各种语言上展现出惊人的一致性，并且在性能上优于或与更大规模的闭源和开源模型相媲美。

Jun, 2024

元数学：为大型语言模型建立自己的数学问题

我们提出了一个名为 MetaMath 的精细调整的语言模型，专注于数学推理，实验证明 MetaMath 在数学推理方面表现优于开源语言模型。

Sep, 2023

大型语言模型用于数学推理的双向指导优化

介绍了利用大型语言模型进行指令调优的最新进展，提出了一种双向指令调优策略，通过前向和后向推理任务来改善语言模型对数学推理的理解与执行能力。通过广泛实验证明，这种策略适用于多种数学推理任务并具有领域通用性。

Mar, 2024

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

LLM 中的算术推理：Prolog 生成与排列

使用大型语言模型来生成 Prolog 程序以解决数学问题，在 GSM8K 基准测试中，我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合，以通过数据增强方法来增加训练的健壮性。

May, 2024

ArthModel: 提升大型语言模型的算术技能

通过训练语言模型生成与算数问题相关的后缀表达式，并将其与小型预训练模型结合，将令牌嵌入转化为真实稠密数字，通过深度学习平台的本地函数获得正确答案。最后，通过提示注入将小型模型的结果输出添加到语言模型中，从而增强了语言模型的算数能力。

Nov, 2023