通过机制可解释性进行 Grokking 的进展测量

Jan, 2023

通过机制可解释性进行 Grokking 的进展测量

Progress measures for grokking via mechanistic interpretability

Neel Nanda, Lawrence Chan, Tom Lieberum, Jess Smith, Jacob Steinhardt

TL;DR通过对小型转换器的逆向工程，我们发现了一个算法，该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转，这为我们定义了进展措施，从而允许我们探索训练过程的动态性，将其分为三个连续阶段：记忆、电路形成和清除。

Abstract

neural networks often exhibit emergent behavior, where qualitatively new capabilities arise from scaling up the amount of parameters, training data, or training steps. One approach to understanding emergence is t

neural networks emergent behavior progress measures transformers modular addition

发现论文，激发创造

实际数据集上理解的进展度量

研究探讨了使用深度神经网络进行分类的情况下，现实世界数据集中普遍观察到并研究的综合学习现象及其相关因素，发现权重范数并非导致综合学习的主要原因，而提出的进展度量方法能更好地理解综合学习的动态。

May, 2024

复杂模块算术中解释曲解的变形金刚

通过解释性的逆向工程，我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路，强调了它们动力学的显着差异，此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。

Feb, 2024

测量《深入理解》中的清晰度

神经网络中的感知现象被称为 grokking，本文提出了一种测量 grokking 的鲁棒技术，并基于拟合合适的函数形式进行研究，发现训练和验证准确性之间的突变趋势与绝对和相对锐度测量方法相似。

Feb, 2024

超越神经网络的理解：模型复杂性的实证探索

网络神经元及其他建模方法中存在着 “不可解释” 的现象，其精确度远超过训练集的表现，本文试图寻找并研究这种神奇现象背后的机制。

Oct, 2023

从惰性训练动态到丰富训练动态的领悟

神经网络在从懒散训练动力学过渡到强大的特征学习规则时，产生 ' 领悟现象 '，通过研究多项式回归问题上的两层神经网络，我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。

Oct, 2023

优秀表示的液滴：在两层网络中领悟为一阶相变

深度神经网络在特征学习方面的能力，特别是与 Grokking 现象相关的阶段转变理论和预测，揭示出在训练过程中学习新特征的机制。

Oct, 2023

Omnigrok: 超越算法数据的理解

通过分析神经网络损失景观和表示学习等机制，我们提出了 LU 机制，解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因，并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。

Oct, 2022

从稳健性视角理解揣摩探究

我们研究了神经网络中的一种异常现象叫做 “grokking”，发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象，同时研究发现在测试数据上，新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性，并提出了提速泛化过程的方法。此外，我们还研究了基本群操作的学习过程，并发现在 “grokking” 之前，神经网络几乎没有学习到其他基本群操作，包括交换律。有趣的是，当使用我们提出的方法时，泛化过程加速的部分原因可以通过学习交换律来解释，这也是模型在测试数据集上实现 “grokking” 的必要条件。

Nov, 2023

通过电路效率解释通俗易懂

一种最令人惊讶的神经网络概括性的难题是理解：一个在训练中完美的网络但在概括性上表现糟糕，经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点：理解发生在任务允许概括性解和记忆化解的情况下，其中概括性解的学习速度较慢但更高效，用相同参数范数产生较大的对数后验概率。我们提出假设，记忆化电路在训练数据集越大时变得越不高效，而概括性电路则不会，这提示存在一个关键数据集大小，在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测，为我们的解释提供了重要证据。最引人注目的是，我们展示了两种新的令人惊讶的行为：非理解，在这种情况下，网络从完美的测试准确性回退到低的测试准确性；半理解，在这种情况下，网络表现出对部分而不是完美的测试准确性的延迟概括。

Sep, 2023

深刻理解：深度神经网络是否能更好地泛化？

通过深度神经网络的研究，我们发现 grokking 现象对于深层网络更为敏感，且特征排名的减少与过拟合到泛化阶段的相变存在关联，特征排名可能比权重范数更能指示模型的泛化行为。

May, 2024