复杂模块算术中解释曲解的变形金刚

Feb, 2024

复杂模块算术中解释曲解的变形金刚

Interpreting Grokked Transformers in Complex Modular Arithmetic

Hiroki Furuta, Minegishi Gouki, Yusuke Iwasawa, Yutaka Matsuo

TL;DR通过解释性的逆向工程，我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路，强调了它们动力学的显着差异，此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。

Abstract

grokking has been actively explored to reveal the mystery of delayed generalization. Identifying interpretable algorithms inside the grokked models is a suggestive hint to understanding its mechanism. In this wor

grokking delayed generalization interpretable algorithms modular arithmetic internal circuits

发现论文，激发创造

通过科尔莫戈洛夫 - 阿诺德表示加速理解算术运算

我们提出了新颖的方法，旨在加速在过拟合之后测试准确率的迅速增加的顿悟现象。通过关注使用 Transformer 模型学习算术二元运算中出现的顿悟现象，我们从交换二元运算的情况开始讨论数据增强，并通过科尔莫戈洛夫 - 阿诺德（KA）表示定理阐明了算术运算的加速机制，揭示了它与 Transformer 架构的对应关系：嵌入、解码器块和分类器。通过观察与二元运算相关的 KA 表示之间的共享结构，我们提出了几种加速顿悟的迁移学习机制。这种解释通过一系列严格的实验得到了证实。此外，我们的方法成功地学习了两个非标准的算术任务：组合运算和方程组。此外，我们揭示了在嵌入迁移下，模型能够使用有限数量的记号学习算术运算，这也得到了一系列实验证明。

May, 2024

通过机制可解释性进行 Grokking 的进展测量

通过对小型转换器的逆向工程，我们发现了一个算法，该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转，这为我们定义了进展措施，从而允许我们探索训练过程的动态性，将其分为三个连续阶段：记忆、电路形成和清除。

Jan, 2023

掌握陪集的群乘法

使用对称群 $S_n$ 上的群 Fourier 变换，逆向工程出一个能够理解 $S_5$ 和 $S_6$ 乘法的一层前馈网络。每个模型都发现了完整群的真实子群结构，并收敛于将群乘法分解为群的共轭子群乘法的电路。我们展示了利用数据和模型的对称性来理解它们的机制的价值，并举出了模型使用的 “余类电路” 作为神经网络实现计算的迷人示例。同时，通过将我们的工作与 Chughtai 等人的工作进行比较，我们还关注了当前进行机制可解释性研究的挑战。

Dec, 2023

掌握 Transformer：隐含的推理者 —— 通向泛化极限的机械之旅

我们研究 transformers 模型是否能够学会隐性地进行参数化知识推理，发现它们能够通过全面且超过过拟合的训练学会隐性推理，但在不同推理类型上的推广程度存在差异：在面对分布之外的例子时，transformers 在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验，我们发现了隐性推理的机制，如泛化电路的形成以及它与泛化和记忆电路相对效率的关系，还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置，以更好地实现隐性推理，并提出了改进 transformer 架构的潜在方法，如鼓励跨层面的知识共享。此外，我们证明对于具有大型搜索空间的具有挑战性的推理任务，基于非参数化记忆的 GPT-4-Turbo 和 Gemini-1.5-Pro 无论在提示样式还是检索增强方面都表现糟糕，而完全掌握隐性推理的 transformers 模型能够实现近乎完美的准确性，展示了参数化记忆在复杂推理中的威力。

May, 2024

神经网络中的傅里叶电路：在数学推理和模块算术中释放大型语言模型的潜力

在机器学习领域中，研究神经网络和 Transformer 所采用的内部表示是一项重要挑战。本研究通过探索网络采用特定计算策略背后的原因，深入分析了样式化的单隐藏层神经网络和单层 Transformer 在解决模块化加法任务时学到的特征，并通过与实证观察相结合，为理解神经网络的计算机制作出了贡献。

Feb, 2024

理解还是不理解：在损坏的算法数据集上分解概括和记忆

深度学习中的稳健泛化是一个重大挑战，特别是当可训练参数的数量非常大时。为了应对这一挑战，我们研究了一种可解释模型，通过分析理解广义表示，并从纪念表示中轻松区分出来。通过在模量算术任务上训练两层神经网络来研究该模型。我们证明：网络在记忆损坏标签及同时实现 100% 泛化的情况下是可能的；记忆神经元可以被识别和修剪，降低损坏数据的准确性，提高未损坏数据的准确性；正则化方法（如权重衰减、dropout 和 BatchNorm）会在优化过程中强制网络忽略损坏数据，在未损坏数据集上达到 100% 的准确性；并且这些正则化方法的效果是可以 “机械解释” 的：权重衰减和 dropout 强制所有神经元学习广义表示，而 BatchNorm 降低记念神经元的输出，并放大广义神经元的输出。最后，我们展示了在正则化的情况下，训练动态包含两个连续阶段：首先，在网络经历 “领悟” 动态过程中，达到高训练和测试准确性；第二，它通过将记忆表示逐渐抹除，从 100% 的训练准确性骤降到 100 (1-ξ)%。

Oct, 2023

理解模块化多项式

神经网络对模块化算术任务的学习受限，无法很好地进行推广；然而，在文献中已知有一种多层感知机（MLP）网络权重的解析解适用于模块化加法任务，本文将这种解析解的类别扩展到包括模块化乘法和具有多个项的模块化加法。此外，我们展示出在这些数据集上经过训练的真实网络通过泛化（理解）学习类似的解，我们结合这些 “专家” 解来构建在任意模块化多项式上具有推广性的网络，并猜测通过神经网络训练的模块化多项式可被分类为可学习和不可学习，并提供了支持我们观点的实验证据。

Jun, 2024

理解 Grokking：表示学习有效理论的探究

通过微观分析和宏观相图描述学习性能，本研究发现，泛化是由结构化表示产生的，这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时，我们观察到四个学习阶段：理解、深度理解、记忆和混淆。此外，本研究还发现，表示学习仅发生在 “Goldilocks 区域”，而这一阶段在理解和深度理解之间，而位于记忆和混淆之间。同时，我们也发现，在 transformers 模型中，深度理解阶段与记忆阶段更接近，导致延迟了泛化，这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。

May, 2022

香草 Transformer 中的分层结构理解

本文研究了神经序列和转换语言模型的层次结构泛化能力，发现通过长时间训练，模型能够学习到层次结构的一般性，对模型深度的分析证明浅层和深层不如中等深度的模型性能优秀。此发现证实了香草珂朵莉模型能够发现和使用自然语言中的层次结构。

May, 2023

学习理解：模块化算术任务中上下文学习和技能组合的出现

通过研究模块化算术任务中上下文学习和技能组合的出现，我们证明了 GPT-style transformer 模型从分布内到分布外泛化的转变，也发现了最小的能够进行分布外泛化的模型需要两个 transformer 块。

Jun, 2024