深刻理解:深度神经网络是否能更好地泛化?
神经网络在从懒散训练动力学过渡到强大的特征学习规则时,产生 ' 领悟现象 ',通过研究多项式回归问题上的两层神经网络,我们发现特征学习速率和初始特征与目标函数的对齐是产生 ' 领悟现象 ' 的关键因素。
Oct, 2023
一种最令人惊讶的神经网络概括性的难题是理解:一个在训练中完美的网络但在概括性上表现糟糕,经过进一步训练后会过渡到完美的概括性。我们提出了这样的观点:理解发生在任务允许概括性解和记忆化解的情况下,其中概括性解的学习速度较慢但更高效,用相同参数范数产生较大的对数后验概率。我们提出假设,记忆化电路在训练数据集越大时变得越不高效,而概括性电路则不会,这提示存在一个关键数据集大小,在这个大小上记忆化和概括性同样高效。我们提出并验证了有关理解的四个新的预测,为我们的解释提供了重要证据。最引人注目的是,我们展示了两种新的令人惊讶的行为:非理解,在这种情况下,网络从完美的测试准确性回退到低的测试准确性;半理解,在这种情况下,网络表现出对部分而不是完美的测试准确性的延迟概括。
Sep, 2023
本文主要研究小规模算法生成数据集上神经网络的泛化能力,探讨数据效率、泛化、学习速度等问题,并阐述了小数据集规模下泛化效果提高的过程、超拟合点后仍可能的泛化提升,以及小数据集可能促进过参数神经网络的泛化能力研究。
Jan, 2022
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
Oct, 2022
本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下,提出了模式学习速度框架来理解 grokking 和 double descent,同时还提供了首次对模型的 grokking 演示。
Mar, 2023
研究了 Grokking 现象,发现由于神经元之间的竞争,模型有一个稀疏子网络,此网络随着优化时神经元的快速标准增长而出现,这个网络在 grokking 相变后主导模型预测。
Mar, 2023
我们研究了神经网络中的一种异常现象叫做 “grokking”,发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象,同时研究发现在测试数据上,新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性,并提出了提速泛化过程的方法。此外,我们还研究了基本群操作的学习过程,并发现在 “grokking” 之前,神经网络几乎没有学习到其他基本群操作,包括交换律。有趣的是,当使用我们提出的方法时,泛化过程加速的部分原因可以通过学习交换律来解释,这也是模型在测试数据集上实现 “grokking” 的必要条件。
Nov, 2023