Jun, 2023

深度矩阵分解中平坦正则化的归纳偏差

TL;DR在学习从线性度量中的深度线性网络时,最小化Hessian矩阵的迹大致相当于最小化相应端到端矩阵参数的Schatten 1-范数,这进而导致更好的概括。