May, 2023

高阶L2正则化的线性DNN中隐式SGD偏差:由高到低秩的单向跳跃

TL;DR通过 SGD 算法,在一定概率下可以从高秩极小值跳到低秩极小值,但跳回去的概率为零,在矩阵补全任务中,目标是收敛到最小秩的局部极小值。