Feb, 2024

深度 ReLU 神经网络中的几何引起的隐式正则化

TL;DR神经网络的隐式正则化现象与参数的几何特征密切相关,优化过程中更倾向于具有低批次功能维度的参数。网络的输入也对批次功能维度产生影响,输入的变化会改变批次功能维度的上限,称为可计算全功能维度,其估计收敛迅速且保持接近参数个数,可以与局部可辨识性相对应。与训练输入和测试输入相关的批次功能维度则由几何诱导的隐式正则化所影响。