小型算法数据集上的过度拟合通用化
通过深度神经网络的研究,我们发现 grokking 现象对于深层网络更为敏感,且特征排名的减少与过拟合到泛化阶段的相变存在关联,特征排名可能比权重范数更能指示模型的泛化行为。
May, 2024
一种最令人惊讶的神经网络概括性的难题是理解:一个在训练中完美的网络但在概括性上表现糟糕,经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点:理解发生在任务允许概括性解和记忆化解的情况下,其中概括性解的学习速度较慢但更高效,用相同参数范数产生较大的对数后验概率。我们提出假设,记忆化电路在训练数据集越大时变得越不高效,而概括性电路则不会,这提示存在一个关键数据集大小,在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测,为我们的解释提供了重要证据。最引人注目的是,我们展示了两种新的令人惊讶的行为:非理解,在这种情况下,网络从完美的测试准确性回退到低的测试准确性;半理解,在这种情况下,网络表现出对部分而不是完美的测试准确性的延迟概括。
Sep, 2023
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
Oct, 2022
深度学习中的稳健泛化是一个重大挑战,特别是当可训练参数的数量非常大时。为了应对这一挑战,我们研究了一种可解释模型,通过分析理解广义表示,并从纪念表示中轻松区分出来。通过在模量算术任务上训练两层神经网络来研究该模型。我们证明:网络在记忆损坏标签及同时实现 100% 泛化的情况下是可能的;记忆神经元可以被识别和修剪,降低损坏数据的准确性,提高未损坏数据的准确性;正则化方法(如权重衰减、dropout 和 BatchNorm)会在优化过程中强制网络忽略损坏数据,在未损坏数据集上达到 100% 的准确性;并且这些正则化方法的效果是可以 “机械解释” 的:权重衰减和 dropout 强制所有神经元学习广义表示,而 BatchNorm 降低记念神经元的输出,并放大广义神经元的输出。最后,我们展示了在正则化的情况下,训练动态包含两个连续阶段:首先,在网络经历 “领悟” 动态过程中,达到高训练和测试准确性;第二,它通过将记忆表示逐渐抹除,从 100% 的训练准确性骤降到 100 (1-ξ)%。
Oct, 2023
该研究通过系统实验和理论构建发现,传统方法很难解释为什么大型神经网络的泛化性能良好,即使加入正则化仍然不会改变随机标记训练数据的状态,因为只要参数数量超过数据点数量,简单的两层神经网络就能实现完美的有限样本表达能力。
Nov, 2016
对于机器学习中的一个令人困惑的伪现象,即迟滞推广现象,我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解,加速了该现象,并提出了少量代码来放大梯度的缓慢变化部分,其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务,使得这种突然泛化现象更具实际可行性。
May, 2024
我们研究了神经网络中的一种异常现象叫做 “grokking”,发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象,同时研究发现在测试数据上,新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性,并提出了提速泛化过程的方法。此外,我们还研究了基本群操作的学习过程,并发现在 “grokking” 之前,神经网络几乎没有学习到其他基本群操作,包括交换律。有趣的是,当使用我们提出的方法时,泛化过程加速的部分原因可以通过学习交换律来解释,这也是模型在测试数据集上实现 “grokking” 的必要条件。
Nov, 2023
本文介绍了一种超越当前流行的最坏情况的理论控制框架,重新审视神经网络的统计力学的古老理论,并使用一个名为 VSDL 的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果,进而提供了关于其过度拟合训练数据、学习算法波动和转变的一种新的定性描述。
Oct, 2017