ICLRMar, 2023

两个电路的故事:稀疏和密集子网络的竞争

TL;DR研究了 Grokking 现象,发现由于神经元之间的竞争,模型有一个稀疏子网络,此网络随着优化时神经元的快速标准增长而出现,这个网络在 grokking 相变后主导模型预测。