Jun, 2023

深度矩阵分解中平坦正则化的归纳偏差

TL;DR在学习从线性度量中的深度线性网络时,最小化 Hessian 矩阵的迹大致相当于最小化相应端到端矩阵参数的 Schatten 1 - 范数,这进而导致更好的概括。