通过科尔莫戈洛夫 - 阿诺德表示加速理解算术运算

May, 2024

通过科尔莫戈洛夫 - 阿诺德表示加速理解算术运算

Acceleration of Grokking in Learning Arithmetic Operations via Kolmogorov-Arnold Representation

Yeachan Park, Minseok Kim, Yeoneung Kim

TL;DR我们提出了新颖的方法，旨在加速在过拟合之后测试准确率的迅速增加的顿悟现象。通过关注使用 Transformer 模型学习算术二元运算中出现的顿悟现象，我们从交换二元运算的情况开始讨论数据增强，并通过科尔莫戈洛夫 - 阿诺德（KA）表示定理阐明了算术运算的加速机制，揭示了它与 Transformer 架构的对应关系：嵌入、解码器块和分类器。通过观察与二元运算相关的 KA 表示之间的共享结构，我们提出了几种加速顿悟的迁移学习机制。这种解释通过一系列严格的实验得到了证实。此外，我们的方法成功地学习了两个非标准的算术任务：组合运算和方程组。此外，我们揭示了在嵌入迁移下，模型能够使用有限数量的记号学习算术运算，这也得到了一系列实验证明。

Abstract

We propose novel methodologies aimed at accelerating the grokking phenomenon, which refers to the rapid increment of test accuracy after a long period of overfitting as reported in~\cite{power2022grokking}. Focus

grokking test accuracy data augmentation kolmogorov-arnold representation theorem transfer learning

发现论文，激发创造

复杂模块算术中解释曲解的变形金刚

通过解释性的逆向工程，我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路，强调了它们动力学的显着差异，此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。

Feb, 2024

理解 Grokking：表示学习有效理论的探究

通过微观分析和宏观相图描述学习性能，本研究发现，泛化是由结构化表示产生的，这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时，我们观察到四个学习阶段：理解、深度理解、记忆和混淆。此外，本研究还发现，表示学习仅发生在 “Goldilocks 区域”，而这一阶段在理解和深度理解之间，而位于记忆和混淆之间。同时，我们也发现，在 transformers 模型中，深度理解阶段与记忆阶段更接近，导致延迟了泛化，这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。

May, 2022

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023

理解还是不理解：在损坏的算法数据集上分解概括和记忆

深度学习中的稳健泛化是一个重大挑战，特别是当可训练参数的数量非常大时。为了应对这一挑战，我们研究了一种可解释模型，通过分析理解广义表示，并从纪念表示中轻松区分出来。通过在模量算术任务上训练两层神经网络来研究该模型。我们证明：网络在记忆损坏标签及同时实现 100% 泛化的情况下是可能的；记忆神经元可以被识别和修剪，降低损坏数据的准确性，提高未损坏数据的准确性；正则化方法（如权重衰减、dropout 和 BatchNorm）会在优化过程中强制网络忽略损坏数据，在未损坏数据集上达到 100% 的准确性；并且这些正则化方法的效果是可以 “机械解释” 的：权重衰减和 dropout 强制所有神经元学习广义表示，而 BatchNorm 降低记念神经元的输出，并放大广义神经元的输出。最后，我们展示了在正则化的情况下，训练动态包含两个连续阶段：首先，在网络经历 “领悟” 动态过程中，达到高训练和测试准确性；第二，它通过将记忆表示逐渐抹除，从 100% 的训练准确性骤降到 100 (1-ξ)%。

Oct, 2023

从稳健性视角理解揣摩探究

我们研究了神经网络中的一种异常现象叫做 “grokking”，发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象，同时研究发现在测试数据上，新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性，并提出了提速泛化过程的方法。此外，我们还研究了基本群操作的学习过程，并发现在 “grokking” 之前，神经网络几乎没有学习到其他基本群操作，包括交换律。有趣的是，当使用我们提出的方法时，泛化过程加速的部分原因可以通过学习交换律来解释，这也是模型在测试数据集上实现 “grokking” 的必要条件。

Nov, 2023

Grokfast：通过增强慢梯度加速洞察力的理解

对于机器学习中的一个令人困惑的伪现象，即迟滞推广现象，我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解，加速了该现象，并提出了少量代码来放大梯度的缓慢变化部分，其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务，使得这种突然泛化现象更具实际可行性。

May, 2024

通过机制可解释性进行 Grokking 的进展测量

通过对小型转换器的逆向工程，我们发现了一个算法，该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转，这为我们定义了进展措施，从而允许我们探索训练过程的动态性，将其分为三个连续阶段：记忆、电路形成和清除。

Jan, 2023

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

早期和晚期隐性偏见的二分法可以显然地引发 Grokking

该研究探讨在理论环境中学习算术任务中的 “理解” 现象，并表明它可以通过早期和晚期的内隐偏差引发。具体而言，当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时，我们证明训练过程会长时间陷入与核心预测器对应的解决方案，然后发生极端转变，达到最小范数 / 最大边界预测器，从而导致测试准确性的巨大变化。

Nov, 2023

使用数字分解评估 Transformer 语言模型在算术运算上的表现

本文研究如何通过分解数字来提高 Transformer 语言模型执行算术运算的准确性，称之为 “Calculon”，并将其与 GPT-3 在加减乘三个运算任务上进行了对比，结果表明在五位数加法任务上，Calculon 的准确率提高了 63％。

Apr, 2023