Feb, 2025
透视与学习:相同特征,不同编码
Grokking vs. Learning: Same Features, Different Encodings
Dmitry Manning-Coe, Jacopo Gliozzi, Alexander G. Stapleton, Edward Hirst, Giuseppe De Tomasi...
TL;DR本研究探讨了“透视”和普通学习在模型训练中的根本差异,分析了两种方法的特征、可压缩性和学习动态。研究发现,尽管两种学习方式学习相同特征,但在特征编码的效率上存在显著差异,尤其在稳定训练中出现了一种新的“压缩状态”,可实现比透视训练高25倍的压缩比,揭示了两者在信息空间中的不同路径。