Oct, 2023

超叠波 toy 模型中的动力学与贝叶斯相变

TL;DR通过奇异学习理论,我们研究了超位叠加玩具模型中的相变。我们导出了理论损失的闭合公式,并在两个隐藏维度的情况下发现正则 k - 边形是临界点。我们提出了支持理论,表明这些 k - 边形的局部学习系数(一种几何不变量)决定了贝叶斯后验随训练样本大小的相变。然后,我们通过实验证明,这些 k - 边形临界点也决定了 SGD 训练的行为。综合所得的结论支持了一种 SGD 学习轨迹受顺序学习机制影响的猜想。具体而言,我们发现 TMS 中的学习过程(无论是通过 SGD 还是贝叶斯学习)可以被表征为在参数空间中从高损失低复杂度区域到低损失高复杂度区域的旅程。