神经网络在从懒散训练动力学过渡到强大的特征学习规则时,产生 ' 领悟现象 ',通过研究多项式回归问题上的两层神经网络,我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。
Oct, 2023
通过深度神经网络的研究,我们发现 grokking 现象对于深层网络更为敏感,且特征排名的减少与过拟合到泛化阶段的相变存在关联,特征排名可能比权重范数更能指示模型的泛化行为。
May, 2024
深度神经网络的一项研究探索了 “Grokking” 或延迟泛化的现象及其对网络鲁棒性和局部复杂性的影响。
Feb, 2024
网络神经元及其他建模方法中存在着 “不可解释” 的现象,其精确度远超过训练集的表现,本文试图寻找并研究这种神奇现象背后的机制。
研究了 Grokking 现象,发现由于神经元之间的竞争,模型有一个稀疏子网络,此网络随着优化时神经元的快速标准增长而出现,这个网络在 grokking 相变后主导模型预测。
Mar, 2023
通过微观分析和宏观相图描述学习性能,本研究发现,泛化是由结构化表示产生的,这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时,我们观察到四个学习阶段:理解、深度理解、记忆和混淆。此外,本研究还发现,表示学习仅发生在 “Goldilocks 区域”,而这一阶段在理解和深度理解之间,而位于记忆和混淆之间。同时,我们也发现,在 transformers 模型中,深度理解阶段与记忆阶段更接近,导致延迟了泛化,这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。
May, 2022
该研究探讨在理论环境中学习算术任务中的 “理解” 现象,并表明它可以通过早期和晚期的内隐偏差引发。具体而言,当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时,我们证明训练过程会长时间陷入与核心预测器对应的解决方案,然后发生极端转变,达到最小范数 / 最大边界预测器,从而导致测试准确性的巨大变化。
Nov, 2023
在本研究中,我们证明在两层 ReLU 网络中,通过梯度下降训练,当训练标签中有恒定比例的错误时,神经网络在第一步达到 100%的训练准确性,然后在测试数据上表现出随机的准确性,而在后续的训练步骤中达到接近最优的测试准确性,这展示了一种新的过拟合现象。
本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下,提出了模式学习速度框架来理解 grokking 和 double descent,同时还提供了首次对模型的 grokking 演示。
通过对小型转换器的逆向工程,我们发现了一个算法,该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转,这为我们定义了进展措施,从而允许我们探索训练过程的动态性,将其分为三个连续阶段:记忆、电路形成和清除。
Jan, 2023