May, 2023

高阶 L2 正则化的线性 DNN 中隐式 SGD 偏差:由高到低秩的单向跳跃

TL;DR通过 SGD 算法,在一定概率下可以从高秩极小值跳到低秩极小值,但跳回去的概率为零,在矩阵补全任务中,目标是收敛到最小秩的局部极小值。