Oct, 2023

线性估计器中的领悟 —— 一个可解决的模型,不需要理解的领悟

TL;DR模型在训练数据拟合后依然能够泛化的现象被称为 “理解”(grokking),本文通过分析和数值实验发现线性网络在简单的教师 - 学生设置中,通过高斯输入也能够出现 grokking 现象。我们推导出模型的训练动态,并提供关于 grokking 时间与输入、输出维度、样本数量、正则化和网络初始化之间关系的准确预测。我们证明泛化准确度的显著提高并不一定意味着从 “记忆” 到 “理解” 的过渡,而可能只是一种测度准确度的一种艺术效果。我们还通过实证验证了计算结果,并初步结果表明一些预测也适用于深度网络与非线性激活函数。