使用大型语言模型生成数学推导

Jul, 2023

Generating Mathematical Derivations with Large Language Models

Jordan Meadows, Marco Valentino, Andre Freitas

TL;DR利用大型语言模型 (LLMs) 进行特定领域的数学推导是一项新兴的研究方向，可以帮助发现模型的局限性，潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导，并研究 LLMs 在从前提中推导目标方程时的能力。实证结果表明，fine-tuned FLAN-T5-large (MathT5) 在绝对性能方面超过了 GPT 模型在所有静态和分布外的测试集上。然而，深入分析发现，fine-tuned 模型对于涉及未知符号的扰动 (以及较小程度的方程结构更改) 更为敏感。此外，我们分析了 1.7K 个方程和 200 多个推导，突出了常见的推理错误，如包含不正确、无关或多余的方程，以及跳过推导步骤的倾向。最后，我们探讨了评估数学推导的现有指标的适用性，发现尽管它们能捕捉到对扰动的敏感性等一般属性，但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说，本研究表明在合成数据上训练模型可以提高其数学能力，超越更大的架构。

Abstract

The derivation of mathematical results in specialised fields using Large Language Models (llms) is an emerging research direction that can help identify models' limitations, and potentially support mathematical discovery. In this paper, we leverage a →

large language models llms symbolic engine mathematical derivations fine-tuned models

发现论文，激发创造

LLM4ED：大型语言模型用于自动方程式发现

通过自然语言提示指导大型语言模型自动从数据中挖掘执法方程的新框架降低了学习和应用等式发现技术的难度，显示了大型语言模型在知识发现领域的应用潜力。

May, 2024

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

数学家的大型语言模型

大型语言模型（LLMs）如 ChatGPT 因其通用的语言理解能力而备受关注，尤其是它们生成高质量文本或计算机代码的能力。在本文中，我们讨论它们在何种程度上可以辅助数学专家，并提供了现代语言模型中使用的变压器模型的数学描述。基于最近的研究，我们概述了最佳实践和潜在问题，并报告了语言模型的数学能力。最后，我们揭示了 LLMs 改变数学家工作方式的潜力。

Dec, 2023

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

使用 Transformers 进行数学推理系统评估的符号框架

使用数据生成方法和符号代数，对变换器编码器的数学推理和泛化进行了 200,000 个例子的超大规模实验，并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明，扰动严重影响性能，并且可以将 F1 分数降至低于 17％，这表明推理主要由与数学运算的深层理解无关的表层模式所支配。

May, 2023

通过前提删除干预探索细粒度 LLM 物理推理的极限

通过使用一个涵盖多种符号和物理子领域的精选数据集，本研究评估了语言模型在进行细粒度数学和物理推理方面的能力，发现模型的数学推理在物理语境中缺乏信息，更多地倾向于逆向工程解决方案。

Apr, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的 LLM 模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明 GPT-4 在所有模型中表现最佳，而开源模型 LLaMA-2-7B 的能力与闭源模型 GPT-3.5 和 Gemini Pro 相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示 LLM 可以将平均修正准确率提高 47.9%。这些结果揭示了开发 LLM 的数学推理能力的潜在方向。

Jun, 2024

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

用于自动定理证明的生成语言建模

本文探讨了基于 Transformer 的语言模型在自动定理证明中的应用，提出了基于语言模型的生成能够解决自动定理证明器与人类相比的主要限制之一 —— 原始数学术语的生成问题。我们提出了一个自动证明器和证明辅助工具 GPT-f，使用 Metamath 形式语言，并分析了其性能。 GPT-f 发现了新的简短证明，并被采纳为正式数学社区所接受，这是我们所知道的第一次基于深度学习的系统为正式数学社区做出的贡献。

Sep, 2020