Nov, 2023

从稳健性视角理解揣摩探究

TL;DR我们研究了神经网络中的一种异常现象叫做 “grokking”,发现使用 $l_2$ 权重范数和鲁棒性观点可以解释、测量和加速这一现象,同时研究发现在测试数据上,新的基于鲁棒性和信息理论的度量指标与 “grokking” 现象具有较好的相关性,并提出了提速泛化过程的方法。此外,我们还研究了基本群操作的学习过程,并发现在 “grokking” 之前,神经网络几乎没有学习到其他基本群操作,包括交换律。有趣的是,当使用我们提出的方法时,泛化过程加速的部分原因可以通过学习交换律来解释,这也是模型在测试数据集上实现 “grokking” 的必要条件。