使用数字分解评估 Transformer 语言模型在算术运算上的表现
在不预训练的情况下,通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练,即便在完全缺乏预训练的情况下,也可以显著提高算术能力的准确性、样本复杂性和收敛速度。
Jul, 2023
研究了表现形式对于序列到序列的语言模型学习加减法算术任务的影响,发现表现形式对模型的准确性有很大影响;通过引入位置标记,模型可以准确地学习添加和减少 60 位数字。无论参数和训练示例数量如何,模型都不能学习与训练期间数字长度无关的加和规则。
Feb, 2021
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。
Aug, 2023
本研究提出基于 DistilBERT、XLM 和 BERT 的多语言探究任务,探讨自然语言数字系统中数值数据的组合推理证据,并发现这些预训练模型嵌入中编码的信息足以支持合法性判断,但一般不适用于值比较。
Oct, 2020
我们提出了一种基于图形的乘法算法,通过引入一个 10k 运算符,模拟人类数学运算,有效地解决了 GPT 和其他大型语言模型在乘法方面的挑战。
Oct, 2023
本研究提出一个数学计算数据集 MATH 401,用于测试最新的大型语言模型(包括 GPT-4,ChatGPT 等)在解决数学单词问题时的算术能力,并提供了能力的详细分析。
Mar, 2023
大型语言模型可以准确执行包括多位数字乘法、小数和分数在内的算术运算,并且能够在无数据泄露情况下实现几乎 100% 的准确度,超越了 GPT-4。此外,我们通过在包含多步骤算术运算和文本描述的数据集上对 GLM-10B 进行微调,开发出的 MathGLM 在 5000 个样本的中文数学问题测试集上展现了与 GPT-4 相似的性能。
Sep, 2023
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
本文提出一种基于通用 Transformer 的深度学习模型,通过发现高效的算数程序,利用外部的网格状记忆进行多位数的加法计算,并且发掘了人类类似的计算策略,如位值对齐。
Jul, 2022
我们分析了 Transformer 语言模型在学习离散算法方面的能力,通过引入两个需要组合多个离散子任务的新任务,我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时,度量了学习的基本组合。我们观察到,最先进的 Transformer 语言模型的组合能力非常有限,而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理,证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。
Feb, 2024