元数学：为大型语言模型建立自己的数学问题

Sep, 2023

元数学：为大型语言模型建立自己的数学问题

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu...

TL;DR我们提出了一个名为 MetaMath 的精细调整的语言模型，专注于数学推理，实验证明 MetaMath 在数学推理方面表现优于开源语言模型。

Abstract

large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (\eg, LLaMA-2) are still far away from satisfactory for solving mathematical problem due to t

large language models mathematical reasoning metamath metamathqa gsm8k

发现论文，激发创造

常见七 B 语言模型已经具备强大的数学能力

LLaMA-2 7B 模型通过简单的方法扩展数据样本，证明了其出色的数学能力及可靠性，适用于 GSM8K 和 MATH 基准测试，并提供了关于不同推理复杂性和错误类型的扩展行为的见解。

Mar, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

MathGenie: 利用问题逆向翻译生成合成数据以提升 LLMs 的数学推理能力

MathGenie 是一种从小规模的问题解决数据集（称为种子数据）生成多样且可靠的数学问题的新方法，通过增加种子数据的真实解决方案，并训练一个回译模型将增加的解决方案翻译回新问题，从而产生与代码集成的问题解决方案，进而提供理性基础验证策略，该方法通过对新收集的数据训练从 7B 到 70B 范围的预训练模型，形成了 MathGenieLM 系列模型，这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型，达到了最新的性能水平，尤其是 MathGenieLM-InternLM2 在 GSM8K 上达到了 87.7％的准确率，在 MATH 上达到了 55.7％的准确率，获得了开放源语言模型的最佳综合得分。

Feb, 2024

Math-LLaVA: 多模态大型语言模型的数学推理引导

利用大型语言模型提高多模态数学推理能力的关键是多模态数学数据集的多样性和合成，其中 MathV360K 数据集和 Math-LLaVA 模型为此做出了显著贡献。

Jun, 2024

MathScale: 数学推理的指令调优

提出了一种简单且可扩展的方法，使用最新的大型语言模型（如 GPT-3.5）来生成高质量的数学推理数据。通过从种子数学问题中提取主题和知识点，构建概念图，并生成新的数学问题，最终创建了一个包含 200 万个数学问题 - 答案对的数学推理数据集（MathScaleQA）。通过对开源大型语言模型（如 LLaMA-2 和 Mistral）进行 Fine-tuning，MathScale-7B 在 Math Word Problems 基准测试（MwpBench）上取得了最先进的性能。

Mar, 2024

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024

KwaiYiiMath 技术报告

KwaiYiiMath enhances mathematical reasoning abilities by applying Supervised Fine-Tuning and Reinforced Learning from Human Feedback on English and Chinese mathematical tasks, achieving state-of-the-art performance on GSM8k, CMath, and a small-scale Chinese primary school mathematics test set named KMath.

Oct, 2023

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

关于小学算术的大型语言模型性能的仔细检查

大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功，但人们越来越担心其中的一部分性能实际上是由于数据集污染，而不是真正的推理能力。调查显示，许多模型可能已经部分记忆了基准测试的例子，导致在新的基准测试上准确度下降。

May, 2024