Feb, 2024

泄漏 ReLU 在超参数化网络的训练和泛化中的影响

TL;DR我们研究了具有广泛的漏斗修复线性统一函数的过参数神经网络的训练和泛化误差。我们对此类神经网络的训练误差的收敛速率和泛化误差进行了上界估计,并研究了这些上界与漏斗修复线性统一参数 alpha 的依赖关系。我们证明了 alpha 等于 - 1,对应于绝对值激活函数,是训练误差上界的最优选择。此外,在特定的设置下,它也是泛化误差上界的最优选择。数值实验在实践中支持了由理论指导的实际选择。