- Grokfast:通过增强慢梯度加速洞察力的理解
对于机器学习中的一个令人困惑的伪现象,即迟滞推广现象,我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解,加速了该现象,并提出了少量代码来放大梯度的缓慢变化部分,其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务,使 - 深刻理解:深度神经网络是否能更好地泛化?
通过深度神经网络的研究,我们发现 grokking 现象对于深层网络更为敏感,且特征排名的减少与过拟合到泛化阶段的相变存在关联,特征排名可能比权重范数更能指示模型的泛化行为。
- 通过科尔莫戈洛夫 - 阿诺德表示加速理解算术运算
我们提出了新颖的方法,旨在加速在过拟合之后测试准确率的迅速增加的顿悟现象。通过关注使用 Transformer 模型学习算术二元运算中出现的顿悟现象,我们从交换二元运算的情况开始讨论数据增强,并通过科尔莫戈洛夫 - 阿诺德(KA)表示定理阐 - 从频率角度对神经网络训练中理解性的合理化
神经网络首先适应训练数据,后来在训练过程中对测试数据进行泛化。本文通过频率动态的角度阐述了这一现象,发现网络最初学习了测试数据中较不明显的频率成分,从而对理解该现象及其机制提供了新的观点。
- 实际数据集上理解的进展度量
研究探讨了使用深度神经网络进行分类的情况下,现实世界数据集中普遍观察到并研究的综合学习现象及其相关因素,发现权重范数并非导致综合学习的主要原因,而提出的进展度量方法能更好地理解综合学习的动态。
- 复杂模块算术中解释曲解的变形金刚
通过解释性的逆向工程,我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路,强调了它们动力学的显着差异,此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。
- 深度网络始终能理解,理由如下
深度神经网络的一项研究探索了 “Grokking” 或延迟泛化的现象及其对网络鲁棒性和局部复杂性的影响。
- 网络理解、双下降和应用能力的统一视角:来自电路竞争的观点
最近的研究揭示了在深度学习中的一些有趣的现象,如 grokking、双下降和大型语言模型的新兴能力,这些现象挑战了人类的直观理解,对于更深入地理解神经模型至关重要。本文提出了一个全面的框架,提供了对这些现象的统一观点,着重于记忆和概括电路之 - 测量《深入理解》中的清晰度
神经网络中的感知现象被称为 grokking,本文提出了一种测量 grokking 的鲁棒技术,并基于拟合合适的函数形式进行研究,发现训练和验证准确性之间的突变趋势与绝对和相对锐度测量方法相似。
- 早期和晚期隐性偏见的二分法可以显然地引发 Grokking
该研究探讨在理论环境中学习算术任务中的 “理解” 现象,并表明它可以通过早期和晚期的内隐偏差引发。具体而言,当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时,我们证明训练过程会长时间陷入与核心预测器对应的解决方案,然后发 - 参数正则化中的新视角:约束方法
本研究提出了一种受限参数正则化(CPR)方法,与传统的权重衰减相比较,CPR 通过对单个参数组的统计度量(例如 L$_2$ 范数)施加上限,从而在学习过程中避免了显式的标量系数。通过应用增广 Lagrangian 方法解决这个约束优化问题, - 从稳健性视角理解揣摩探究
我们研究了神经网络中的一种异常现象叫做 “grokking”,发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象,同时研究发现在测试数据上,新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性 - 深入理解抽奖票:抽奖票加速深入理解
通过抽象算法(Lottery Ticket Hypothesis)从完美记忆到完美泛化的过渡阶段,找到网络参数权重的关键性指标,有效描述了学习模式的转变。
- 超越神经网络的理解:模型复杂性的实证探索
网络神经元及其他建模方法中存在着 “不可解释” 的现象,其精确度远超过训练集的表现,本文试图寻找并研究这种神奇现象背后的机制。
- 线性估计器中的领悟 —— 一个可解决的模型,不需要理解的领悟
模型在训练数据拟合后依然能够泛化的现象被称为 “理解”(grokking),本文通过分析和数值实验发现线性网络在简单的教师 - 学生设置中,通过高斯输入也能够出现 grokking 现象。我们推导出模型的训练动态,并提供关于 grokkin - 深度网络线性区域的训练动态
在这项研究中,我们研究了连续分段仿射深度网络(如带有(渗漏的)ReLU 非线性的网络)训练动态的输入空间划分或线性区域,提出了一种包含了本地复杂性的新统计量,观察到在训练过程中,数据点周围的本地复杂性经历了几个阶段,与深度网络的记忆性和概括 - 理解为压缩:非线性复杂性视角
延迟记忆之后的泛化现象被归因于压缩。为了证明这一点,我们定义了线性映射数(LMN)来衡量网络复杂度,它是针对 ReLU 网络的线性区域数的一般化版本。LMN 可以很好地描述泛化前的神经网络压缩。尽管 L2 范数一直是描述模型复杂度的流行选择 - 优秀表示的液滴:在两层网络中领悟为一阶相变
深度神经网络在特征学习方面的能力,特别是与 Grokking 现象相关的阶段转变理论和预测,揭示出在训练过程中学习新特征的机制。
- 通过电路效率解释通俗易懂
一种最令人惊讶的神经网络概括性的难题是理解:一个在训练中完美的网络但在概括性上表现糟糕,经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点:理解发生在任务允许概括性解和记忆化解的情况下,其中概括性解的学习速度较慢但更高效,用相同参数 - 预测 Grokking 早期发生:深入探究 grok 模型的损失景观
本文提出了一种低成本的方法,通过学习神经网络早期的学习曲线来预测是否会出现后期的 grokking 现象,并使用傅里叶变换来量化低频分量的幅度以检测这种振荡现象。