两个电路的故事:稀疏和密集子网络的竞争
神经网络在从懒散训练动力学过渡到强大的特征学习规则时,产生 ' 领悟现象 ',通过研究多项式回归问题上的两层神经网络,我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。
Oct, 2023
一种最令人惊讶的神经网络概括性的难题是理解:一个在训练中完美的网络但在概括性上表现糟糕,经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点:理解发生在任务允许概括性解和记忆化解的情况下,其中概括性解的学习速度较慢但更高效,用相同参数范数产生较大的对数后验概率。我们提出假设,记忆化电路在训练数据集越大时变得越不高效,而概括性电路则不会,这提示存在一个关键数据集大小,在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测,为我们的解释提供了重要证据。最引人注目的是,我们展示了两种新的令人惊讶的行为:非理解,在这种情况下,网络从完美的测试准确性回退到低的测试准确性;半理解,在这种情况下,网络表现出对部分而不是完美的测试准确性的延迟概括。
Sep, 2023
通过深度神经网络的研究,我们发现 grokking 现象对于深层网络更为敏感,且特征排名的减少与过拟合到泛化阶段的相变存在关联,特征排名可能比权重范数更能指示模型的泛化行为。
May, 2024
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
Oct, 2022
通过抽象算法(Lottery Ticket Hypothesis)从完美记忆到完美泛化的过渡阶段,找到网络参数权重的关键性指标,有效描述了学习模式的转变。
Oct, 2023
研究探讨了使用深度神经网络进行分类的情况下,现实世界数据集中普遍观察到并研究的综合学习现象及其相关因素,发现权重范数并非导致综合学习的主要原因,而提出的进展度量方法能更好地理解综合学习的动态。
May, 2024
通过微观分析和宏观相图描述学习性能,本研究发现,泛化是由结构化表示产生的,这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时,我们观察到四个学习阶段:理解、深度理解、记忆和混淆。此外,本研究还发现,表示学习仅发生在 “Goldilocks 区域”,而这一阶段在理解和深度理解之间,而位于记忆和混淆之间。同时,我们也发现,在 transformers 模型中,深度理解阶段与记忆阶段更接近,导致延迟了泛化,这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。
May, 2022