May, 2022

理解 Grokking:表示学习有效理论的探究

TL;DR通过微观分析和宏观相图描述学习性能,本研究发现,泛化是由结构化表示产生的,这些表示的训练动态和对训练集大小的依赖性可以在玩具环境中通过有效理论进行预测。同时,我们观察到四个学习阶段:理解、深度理解、记忆和混淆。此外,本研究还发现,表示学习仅发生在 “Goldilocks 区域”,而这一阶段在理解和深度理解之间,而位于记忆和混淆之间。同时,我们也发现,在 transformers 模型中,深度理解阶段与记忆阶段更接近,导致延迟了泛化,这种 “Goldilocks 区域” 与达尔文进化中的 “从饥饿中获得的智慧” 类似。