ICLRDec, 2020

解决梯度下降隐式偏差的矩阵分解方法:贪婪的低秩学习

TL;DR通过深度为 2 的矩阵分解及理论和实证证据,我们证明了梯度流(用无穷小初始化)等价于一个简单的启发式秩量化算法,同时对深度大于等于 3 的情况进行了扩展,并证明了深度的优势在于对初始化幅度的弱依赖性,因此这种秩量化更可能在实践中起作用。