BriefGPT.xyz
Jan, 2025
数值稳定性的边缘:Grokking现象研究
Grokking at the Edge of Numerical Stability
HTML
PDF
Lucas Prieto, Melih Barsbey, Pedro A. M. Mediano, Tolga Birdal
TL;DR
本研究解决了深度学习中grokking现象的延迟泛化及其对正则化依赖性的问题。我们提出了StableMax激活函数和$\perp$Grad训练算法,前者防止数值不稳定导致的Softmax崩溃,后者加快grokking任务中的泛化速度。研究表明,减轻数值不稳定性可以在无需正则化的情况下实现grokking,从而为深度学习提供了新的见解。
Abstract
Grokking
, the sudden
Generalization
that occurs after prolonged overfitting, is a surprising phenomenon challenging our understanding of
Deep Lea
→