InternLM-Math: 面向可验证推理的开放数学大语言模型

Feb, 2024

InternLM-Math: 面向可验证推理的开放数学大语言模型

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao...

TL;DR我们介绍并开源了我们的数学推理 LLMs InternLM-Math，它是从 InternLM2 继续预训练的，将序列到序列格式中的思维链推理、奖励建模、形式推理、数据增强和代码解释器统一起来，监督我们的模型成为一个多功能的数学推理者、验证者、证明者和扩充器。我们的预训练模型在各种非正式和正式基准测试中，包括 GSM8K、MATH、匈牙利数学考试、MathBench-ZH 和 MiniF2F，在即时学习、监督微调和代码辅助推理的环境设置下，取得了最先进的性能，MiniF2F 测试集上实现了 30.3 的成绩。我们进一步探索了如何使用 LEAN 解决数学问题，并研究了在多任务学习的环境设置下的性能，这表明了使用 LEAN 作为数学问题求解和证明的统一平台的可能性。我们的模型、代码和数据已在 https://github.com/InternLM/InternLM-Math 上发布。

Abstract

The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from Int

math abilities language models abstract reasoning math reasoning llms code interpreter

发现论文，激发创造

MARIO：用代码解释器输出进行数学推理的再现性管道

大型语言模型在自然语言理解任务中取得了显著的进展，但要实现真正的人工智能通用智能还存在差距，特别是在数学推理能力方面存在不足。本文通过丰富数据环境和引入一种新的数学数据集，该数据集具有使用 Python 代码解释器的能力，解决了这一挑战。此外，我们提出了一种旨在精调数学专用语言模型的可行、易复制的协议，在 GSM8K 和 MATH 数据集上显著提升了 7B 参数 LLM 性能。我们致力于推进 LLMs 中的数学推理领域，并且我们已经公开了模型检查点并将数据集公开可用，希望这将促进社区内的进一步研究和发展。

Jan, 2024

WizardMath：通过增强进化教学赋能大型语言模型的数学推理

通过应用 RLEIF 方法于数学领域，我们提出了 WizardMath 以增强 Llama-2 的数学推理能力，实验证明我们的模型在 GSM8k 和 MATH 等数学推理评估上远超其他开源 LLMs，甚至胜过了 ChatGPT-3.5 等模型。

Aug, 2023

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLMs 数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现 SOTA 性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

VerityMath: 自校验实现的数学推理与单位一致性的推动

通过定义单位并确保在数学运算过程中单位的一致性，我们提出了一种系统的方法来解决大规模语言模型在解决涉及跨多种类型或单位的数量的数学问题时面临的挑战。我们使用 Unit Consistency Programs（UCPs）为每个问题开发了一个带有单位规范和单位验证程序的数据集，并借助 UCPs 对 Code Llama（7B）模型进行了微调，从而产生了 VerityMath，并展示了我们的初步研究结果。

Nov, 2023

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

MathCoder：深化数学推理的 LLMs 中无缝代码集成

我们提出了一种方法，通过对开源语言模型进行微调，使其能够使用代码进行建模，并推导出数学方程，从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法，称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型，一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是，MathCoder 模型在 MATH（45.2％）和 GSM8K（83.9％）数据集上取得了开源语言模型的最新得分，远远超过其他开源方案。值得注意的是，MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2，还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。

Oct, 2023

LLM 能掌握数学吗？研究大型语言模型在数学 Stack Exchange 上

本研究通过分析 GPT-4 在回答数学问题中的表现，探讨了大型语言模型在复杂的数学问题解决中的局限性和不足，为未来人工智能驱动的数学推理的研究和进展奠定了基础。

Mar, 2024