理解 Grokking：表示学习有效理论的探究

May, 2022

理解 Grokking：表示学习有效理论的探究

Towards Understanding Grokking: An Effective Theory of Representation Learning

Ziming Liu, Ouail Kitouni, Niklas Nolte, Eric J. Michaud, Max Tegmark...

TL;DR通过微观分析和宏观相图描述学习性能，本研究发现，泛化是由结构化表示产生的，这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时，我们观察到四个学习阶段：理解、深度理解、记忆和混淆。此外，本研究还发现，表示学习仅发生在 “Goldilocks 区域”，而这一阶段在理解和深度理解之间，而位于记忆和混淆之间。同时，我们也发现，在 transformers 模型中，深度理解阶段与记忆阶段更接近，导致延迟了泛化，这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。

Abstract

We aim to understand grokking, a phenomenon where models generalize long after overfitting their training set. We present both a microscopic analysis anchored by an effective theory and a macroscopic analysis of phase diagrams describing →

grokking generalization learning performance structured representations goldilocks zone

发现论文，激发创造

通过电路效率解释通俗易懂

一种最令人惊讶的神经网络概括性的难题是理解：一个在训练中完美的网络但在概括性上表现糟糕，经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点：理解发生在任务允许概括性解和记忆化解的情况下，其中概括性解的学习速度较慢但更高效，用相同参数范数产生较大的对数后验概率。我们提出假设，记忆化电路在训练数据集越大时变得越不高效，而概括性电路则不会，这提示存在一个关键数据集大小，在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测，为我们的解释提供了重要证据。最引人注目的是，我们展示了两种新的令人惊讶的行为：非理解，在这种情况下，网络从完美的测试准确性回退到低的测试准确性；半理解，在这种情况下，网络表现出对部分而不是完美的测试准确性的延迟概括。

Sep, 2023

Omnigrok: 超越算法数据的理解

通过分析神经网络损失景观和表示学习等机制，我们提出了 LU 机制，解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因，并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。

Oct, 2022

深刻理解：深度神经网络是否能更好地泛化？

通过深度神经网络的研究，我们发现 grokking 现象对于深层网络更为敏感，且特征排名的减少与过拟合到泛化阶段的相变存在关联，特征排名可能比权重范数更能指示模型的泛化行为。

May, 2024

优秀表示的液滴：在两层网络中领悟为一阶相变

深度神经网络在特征学习方面的能力，特别是与 Grokking 现象相关的阶段转变理论和预测，揭示出在训练过程中学习新特征的机制。

Oct, 2023

线性估计器中的领悟 —— 一个可解决的模型，不需要理解的领悟

模型在训练数据拟合后依然能够泛化的现象被称为 “理解”（grokking），本文通过分析和数值实验发现线性网络在简单的教师 - 学生设置中，通过高斯输入也能够出现 grokking 现象。我们推导出模型的训练动态，并提供关于 grokking 时间与输入、输出维度、样本数量、正则化和网络初始化之间关系的准确预测。我们证明泛化准确度的显著提高并不一定意味着从 “记忆” 到 “理解” 的过渡，而可能只是一种测度准确度的一种艺术效果。我们还通过实证验证了计算结果，并初步结果表明一些预测也适用于深度网络与非线性激活函数。

Oct, 2023

深度网络始终能理解，理由如下

深度神经网络的一项研究探索了 “Grokking” 或延迟泛化的现象及其对网络鲁棒性和局部复杂性的影响。

Feb, 2024

从惰性训练动态到丰富训练动态的领悟

神经网络在从懒散训练动力学过渡到强大的特征学习规则时，产生 ' 领悟现象 '，通过研究多项式回归问题上的两层神经网络，我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。

Oct, 2023

两个电路的故事：稀疏和密集子网络的竞争

研究了 Grokking 现象，发现由于神经元之间的竞争，模型有一个稀疏子网络，此网络随着优化时神经元的快速标准增长而出现，这个网络在 grokking 相变后主导模型预测。

Mar, 2023

预测 Grokking 早期发生：深入探究 grok 模型的损失景观

本文提出了一种低成本的方法，通过学习神经网络早期的学习曲线来预测是否会出现后期的 grokking 现象，并使用傅里叶变换来量化低频分量的幅度以检测这种振荡现象。

Jun, 2023

统一理解学习和双重下降

本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下，提出了模式学习速度框架来理解 grokking 和 double descent，同时还提供了首次对模型的 grokking 演示。

Mar, 2023