超越神经网络的理解：模型复杂性的实证探索

Oct, 2023

超越神经网络的理解：模型复杂性的实证探索

Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity

Jack Miller, Charles O'Neill, Thang Bui

TL;DR网络神经元及其他建模方法中存在着 “不可解释” 的现象，其精确度远超过训练集的表现，本文试图寻找并研究这种神奇现象背后的机制。

Abstract

In some settings neural networks exhibit a phenomenon known as grokking, where they achieve perfect or near-perfect accuracy on the validation set long after the same performance has been achieved on the training

grokking neural networks gaussian process classification gp regression linear regression

发现论文，激发创造

深刻理解：深度神经网络是否能更好地泛化？

通过深度神经网络的研究，我们发现 grokking 现象对于深层网络更为敏感，且特征排名的减少与过拟合到泛化阶段的相变存在关联，特征排名可能比权重范数更能指示模型的泛化行为。

May, 2024

从惰性训练动态到丰富训练动态的领悟

神经网络在从懒散训练动力学过渡到强大的特征学习规则时，产生 ' 领悟现象 '，通过研究多项式回归问题上的两层神经网络，我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。

Oct, 2023

深度网络始终能理解，理由如下

深度神经网络的一项研究探索了 “Grokking” 或延迟泛化的现象及其对网络鲁棒性和局部复杂性的影响。

Feb, 2024

通过电路效率解释通俗易懂

一种最令人惊讶的神经网络概括性的难题是理解：一个在训练中完美的网络但在概括性上表现糟糕，经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点：理解发生在任务允许概括性解和记忆化解的情况下，其中概括性解的学习速度较慢但更高效，用相同参数范数产生较大的对数后验概率。我们提出假设，记忆化电路在训练数据集越大时变得越不高效，而概括性电路则不会，这提示存在一个关键数据集大小，在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测，为我们的解释提供了重要证据。最引人注目的是，我们展示了两种新的令人惊讶的行为：非理解，在这种情况下，网络从完美的测试准确性回退到低的测试准确性；半理解，在这种情况下，网络表现出对部分而不是完美的测试准确性的延迟概括。

Sep, 2023

Omnigrok: 超越算法数据的理解

通过分析神经网络损失景观和表示学习等机制，我们提出了 LU 机制，解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因，并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。

Oct, 2022

线性估计器中的领悟 —— 一个可解决的模型，不需要理解的领悟

模型在训练数据拟合后依然能够泛化的现象被称为 “理解”（grokking），本文通过分析和数值实验发现线性网络在简单的教师 - 学生设置中，通过高斯输入也能够出现 grokking 现象。我们推导出模型的训练动态，并提供关于 grokking 时间与输入、输出维度、样本数量、正则化和网络初始化之间关系的准确预测。我们证明泛化准确度的显著提高并不一定意味着从 “记忆” 到 “理解” 的过渡，而可能只是一种测度准确度的一种艺术效果。我们还通过实证验证了计算结果，并初步结果表明一些预测也适用于深度网络与非线性激活函数。

Oct, 2023

从稳健性视角理解揣摩探究

我们研究了神经网络中的一种异常现象叫做 “grokking”，发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象，同时研究发现在测试数据上，新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性，并提出了提速泛化过程的方法。此外，我们还研究了基本群操作的学习过程，并发现在 “grokking” 之前，神经网络几乎没有学习到其他基本群操作，包括交换律。有趣的是，当使用我们提出的方法时，泛化过程加速的部分原因可以通过学习交换律来解释，这也是模型在测试数据集上实现 “grokking” 的必要条件。

Nov, 2023

实际数据集上理解的进展度量

研究探讨了使用深度神经网络进行分类的情况下，现实世界数据集中普遍观察到并研究的综合学习现象及其相关因素，发现权重范数并非导致综合学习的主要原因，而提出的进展度量方法能更好地理解综合学习的动态。

May, 2024

小型算法数据集上的过度拟合通用化

本文主要研究小规模算法生成数据集上神经网络的泛化能力，探讨数据效率、泛化、学习速度等问题，并阐述了小数据集规模下泛化效果提高的过程、超拟合点后仍可能的泛化提升，以及小数据集可能促进过参数神经网络的泛化能力研究。

Jan, 2022

优秀表示的液滴：在两层网络中领悟为一阶相变

深度神经网络在特征学习方面的能力，特别是与 Grokking 现象相关的阶段转变理论和预测，揭示出在训练过程中学习新特征的机制。

Oct, 2023