使用合成数据探索大型语言模型的数学外推

ACLJun, 2024

使用合成数据探索大型语言模型的数学外推

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data

Haolong Li, Yu Ma, Yinqi Zhang, Chen Ye, Jie Chen

TL;DR通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Abstract

Large Language Models (LLMs) have shown excellent performance in language understanding, text generation, code synthesis, and many other tasks, while they still struggle in complex multi-step reasoning problems, such as mathematical reasoning. In this paper, through a newly proposed ar

large language models (llms)multi-step reasoning arithmetical puzzle problem fine-tuning zero-shot pass

发现论文，激发创造

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

ArthModel: 提升大型语言模型的算术技能

通过训练语言模型生成与算数问题相关的后缀表达式，并将其与小型预训练模型结合，将令牌嵌入转化为真实稠密数字，通过深度学习平台的本地函数获得正确答案。最后，通过提示注入将小型模型的结果输出添加到语言模型中，从而增强了语言模型的算数能力。

Nov, 2023

语言模型轻松完成难算术任务，但几乎不能完成简单算术任务

大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强，而对单位数乘法可信准确预测的能力较差，但在给出正确的高位数字作为条件下，后者任务的可信准确预测能力可以大幅提升。

Jun, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

MuMath-Code：结合多角度数据增强的数学推理工具使用大型语言模型

我们提出了一种结合外部工具和数据增强的方法，并采用两阶段的训练策略，以实现数学推理能力的增强。经过大量实验证明，我们的方法在数学推理任务上取得了新的最佳性能。

May, 2024

大型语言模型在算术任务中的表现如何？

本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。

Mar, 2023

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024