Nov, 2023

早期和晚期隐性偏见的二分法可以显然地引发 Grokking

TL;DR该研究探讨在理论环境中学习算术任务中的 “理解” 现象,并表明它可以通过早期和晚期的内隐偏差引发。具体而言,当使用大初始化和小权重衰减的同质神经网络在分类和回归任务上进行训练时,我们证明训练过程会长时间陷入与核心预测器对应的解决方案,然后发生极端转变,达到最小范数 / 最大边界预测器,从而导致测试准确性的巨大变化。