BriefGPT.xyz
Ask
alpha
关键词
delayed generalization
搜索结果 - 3
Grokfast:通过增强慢梯度加速洞察力的理解
对于机器学习中的一个令人困惑的伪现象,即迟滞推广现象,我们通过将参数的一系列梯度作为随时间变化的时间随机信号进行频谱分解,加速了该现象,并提出了少量代码来放大梯度的缓慢变化部分,其中实验表明我们的算法适用于涉及图像、语言和图形的各种任务,使
→
PDF
a month ago
复杂模块算术中解释曲解的变形金刚
通过解释性的逆向工程,我们观察到通过 Grokking 在复杂模块化算术中学习到的内部电路,强调了它们动力学的显着差异,此外我们引入了模块化算术的新进展衡量以及可识别模型的内部表示。
PDF
4 months ago
深度网络始终能理解,理由如下
深度神经网络的一项研究探索了 “Grokking” 或延迟泛化的现象及其对网络鲁棒性和局部复杂性的影响。
PDF
4 months ago
Prev
Next