展示计算过程:中间计算与语言模型的草稿本
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。
Aug, 2023
在不预训练的情况下,通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练,即便在完全缺乏预训练的情况下,也可以显著提高算术能力的准确性、样本复杂性和收敛速度。
Jul, 2023
我们分析了 Transformer 语言模型在学习离散算法方面的能力,通过引入两个需要组合多个离散子任务的新任务,我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时,度量了学习的基本组合。我们观察到,最先进的 Transformer 语言模型的组合能力非常有限,而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理,证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。
Feb, 2024
此论文提出了 “分布局部性” 的概念,用于捕捉正常 Transformer 模型有效实现弱学习的情况,同时证明了分布局部性高的情况下不能高效学习,并且介绍了通过破坏分布局部性和改进超出分布泛化能力的 “归纳式草稿” 概念。
Jun, 2024
本文研究了大型预训练语言模型在符号操作任务上的能力,发现其对于简单的符号操作任务如复制、反转、加法等存在局限,并提出了基于位置标记,细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示,这些方法均无法完全解决最简单的加法归纳问题。最后,介绍了一种带有辅导的 LMs,可以在 OOD 和重复符号的情况下实现 100%的准确性。
Aug, 2022
本文研究如何通过分解数字来提高 Transformer 语言模型执行算术运算的准确性,称之为 “Calculon”,并将其与 GPT-3 在加减乘三个运算任务上进行了对比,结果表明在五位数加法任务上,Calculon 的准确率提高了 63%。
Apr, 2023
本文演示了通过对结构适当的逐步演示进行自回归语言模型(GPT-Neo)的微调,可以教授它执行以前对 Transformers 难以处理的数学任务(如笔算模态运算)。通过对解决长除法问题的 200 个结构适当的演示进行 Fine-tuning,可以在不更改学习算法的情况下,使最小的 GPT-Neo 模型实现超过 80%的准确性,这表明在小型的数据集上进行充分的微调和完善的演示可能是帮助没有机器学习培训的个人让这些模型执行某些复杂多步骤任务的有用范例。
Sep, 2021
本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性,研究结果表明 Transformer 模型虽然具有出色的多步推理性能,但其解决复合任务的方式是将多步推理化简为线性子图匹配,而并未完全发展出解决问题的系统性解决问题的方法,同时,随着任务复杂度的增加,Transformer 模型的性能也会快速下降。
May, 2023