ArthModel: 提升大型语言模型的算术技能

Nov, 2023

ArthModel: 提升大型语言模型的算术技能

ArthModel: Enhance Arithmetic Skills to Large Language Model

Yingdi Guo

TL;DR通过训练语言模型生成与算数问题相关的后缀表达式，并将其与小型预训练模型结合，将令牌嵌入转化为真实稠密数字，通过深度学习平台的本地函数获得正确答案。最后，通过提示注入将小型模型的结果输出添加到语言模型中，从而增强了语言模型的算数能力。

Abstract

With the great success of ChatGPT, the research of large language models has become increasingly popular. However, the models have several limitations, such as toxicity and pool performance of arithmetic solving.

language models toxicity arithmetic problem solving postfix expression prompt injection

发现论文，激发创造

大型语言模型在算术任务中的表现如何？

本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。

Mar, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

通过语言模型算术控制文本生成

使用模型算术，我们可以对大型语言模型进行组合和偏置，同时使得生成的文本具有更精确的控制，并且在毒性减少任务上表现优于现有技术。

Nov, 2023

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

Mathify: 在数学问题求解任务上评估大型语言模型

自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展，特别在解决数学问题的应用方面，其中 MAmmoTH-13B 表现出了最高的能力水平，成为解决 NCERT 数学问题的可靠基准。

Apr, 2024

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

语言模型轻松完成难算术任务，但几乎不能完成简单算术任务

大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强，而对单位数乘法可信准确预测的能力较差，但在给出正确的高位数字作为条件下，后者任务的可信准确预测能力可以大幅提升。

Jun, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

OccamLLM：一步快速准确的语言模型算术

提出了一种框架，通过在单个自回归步骤中实现精确算术运算，来提供更快、更安全和更可解释的大型语言模型系统，实现了 100% 准确率的单一算术运算和挑战性算术的多步推理问题。

Jun, 2024