BriefGPT.xyz
Ask
alpha
关键词
pattern learning speeds
搜索结果 - 1
统一理解学习和双重下降
本文探讨深度学习中普遍性的理解可能需要将各种现象归纳在一个框架下,提出了模式学习速度框架来理解 grokking 和 double descent,同时还提供了首次对模型的 grokking 演示。
PDF
a year ago
Prev
Next