Oct, 2022

Omnigrok: 超越算法数据的理解

TL;DR通过分析神经网络损失景观和表示学习等机制,我们提出了 LU 机制,解释了算法数据的长时间过拟合和泛化现象 – Grokking 的根本原因,并在该认知基础上进行了图像、语言和分子的相关任务的训练与预测。