Jan, 2025

数值稳定性的边缘:Grokking现象研究

TL;DR本研究解决了深度学习中grokking现象的延迟泛化及其对正则化依赖性的问题。我们提出了StableMax激活函数和$\perp$Grad训练算法,前者防止数值不稳定导致的Softmax崩溃,后者加快grokking任务中的泛化速度。研究表明,减轻数值不稳定性可以在无需正则化的情况下实现grokking,从而为深度学习提供了新的见解。