BriefGPT.xyz
Ask
alpha
关键词
lu mechanism
搜索结果 - 1
Omnigrok: 超越算法数据的理解
通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。
PDF
2 years ago
Prev
Next