网络理解、双下降和应用能力的统一视角：来自电路竞争的观点

Feb, 2024

网络理解、双下降和应用能力的统一视角：来自电路竞争的观点

Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition

Yufei Huang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun

TL;DR最近的研究揭示了在深度学习中的一些有趣的现象，如 grokking、双下降和大型语言模型的新兴能力，这些现象挑战了人类的直观理解，对于更深入地理解神经模型至关重要。本文提出了一个全面的框架，提供了对这些现象的统一观点，着重于记忆和概括电路之间的竞争。我们的方法首先用于解释 grokking，并在我们的工作中扩展到更广泛的模型尺寸和训练数据量范围。利用这个框架，我们对双下降现象进行了详细分析，并提出了两个关于其出现的可验证预测，这两个预测都得到了我们的实验结果的证实。此外，我们将我们的框架扩展到多任务学习范式，展示了如何将算法任务转化为新兴能力，为理解大型语言模型中的新兴能力提供了一种新的视角。

Abstract

Recent studies have uncovered intriguing phenomena in deep learning, such as grokking, double descent, and →

deep learning grokking double descent emergent abilities neural models

发现论文，激发创造

统一理解学习和双重下降

本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下，提出了模式学习速度框架来理解 grokking 和 double descent，同时还提供了首次对模型的 grokking 演示。

Mar, 2023

两个电路的故事：稀疏和密集子网络的竞争

研究了 Grokking 现象，发现由于神经元之间的竞争，模型有一个稀疏子网络，此网络随着优化时神经元的快速标准增长而出现，这个网络在 grokking 相变后主导模型预测。

Mar, 2023

通过电路效率解释通俗易懂

一种最令人惊讶的神经网络概括性的难题是理解：一个在训练中完美的网络但在概括性上表现糟糕，经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点：理解发生在任务允许概括性解和记忆化解的情况下，其中概括性解的学习速度较慢但更高效，用相同参数范数产生较大的对数后验概率。我们提出假设，记忆化电路在训练数据集越大时变得越不高效，而概括性电路则不会，这提示存在一个关键数据集大小，在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测，为我们的解释提供了重要证据。最引人注目的是，我们展示了两种新的令人惊讶的行为：非理解，在这种情况下，网络从完美的测试准确性回退到低的测试准确性；半理解，在这种情况下，网络表现出对部分而不是完美的测试准确性的延迟概括。

Sep, 2023

深刻理解：深度神经网络是否能更好地泛化？

通过深度神经网络的研究，我们发现 grokking 现象对于深层网络更为敏感，且特征排名的减少与过拟合到泛化阶段的相变存在关联，特征排名可能比权重范数更能指示模型的泛化行为。

May, 2024

理解 Grokking：表示学习有效理论的探究

通过微观分析和宏观相图描述学习性能，本研究发现，泛化是由结构化表示产生的，这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时，我们观察到四个学习阶段：理解、深度理解、记忆和混淆。此外，本研究还发现，表示学习仅发生在 “Goldilocks 区域”，而这一阶段在理解和深度理解之间，而位于记忆和混淆之间。同时，我们也发现，在 transformers 模型中，深度理解阶段与记忆阶段更接近，导致延迟了泛化，这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。

May, 2022

超越神经网络的理解：模型复杂性的实证探索

网络神经元及其他建模方法中存在着 “不可解释” 的现象，其精确度远超过训练集的表现，本文试图寻找并研究这种神奇现象背后的机制。

Oct, 2023

崛起学习：由新兴能力和单义性基础的研究

通过研究不同规模的模型，我们发现在大型模型中达到更高性能的关键因素是单语义神经元的减少，提出了一种主动抑制单语义性的两阶段方法，并通过理论分析和实验证明了其有效性。该方法的适用性不限于大规模，但对于研究部门来说，将该研究扩展至非常大规模的数据集是吸引人的，但受到资源限制而不可能实现，期待 AI 公司的合作。

Dec, 2023

Omnigrok: 超越算法数据的理解

通过分析神经网络损失景观和表示学习等机制，我们提出了 LU 机制，解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因，并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。

Oct, 2022

通过机制可解释性进行 Grokking 的进展测量

通过对小型转换器的逆向工程，我们发现了一个算法，该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转，这为我们定义了进展措施，从而允许我们探索训练过程的动态性，将其分为三个连续阶段：记忆、电路形成和清除。

Jan, 2023

深度学习中的双下降现象理解

将经验风险最小化与容量控制结合是机器学习中控制泛化差距和避免过拟合的经典策略。然而，在现代深度学习实践中，非常庞大的超参数化模型（例如神经网络）被优化以完美拟合训练数据，并且仍然具有出色的泛化性能。在插值点之后，增加模型复杂性似乎实际上降低了测试误差。本教程解释了双重下降的概念及其机制，并引入了具有关键作用的归纳偏差，通过选择一种平滑的经验风险最小化器，从多个插值解决方案中选择一个。最后，第三部分探讨了两个线性模型中的双重下降，并从最近相关的工作提供了其他视角。

Mar, 2024