Jan, 2023
通过机制可解释性进行 Grokking 的进展测量
Progress measures for grokking via mechanistic interpretability
Neel Nanda, Lawrence Chan, Tom Lieberum, Jess Smith, Jacob Steinhardt
TL;DR通过对小型转换器的逆向工程,我们发现了一个算法,该算法使用离散傅里叶变换和三角恒等式将加法转换为圆周上的旋转,这为我们定义了进展措施,从而允许我们探索训练过程的动态性,将其分为三个连续阶段:记忆、电路形成和清除。