我们对一个使用 ReLU 激活的随机初始化全连接网络 N 的梯度统计行为进行了严格分析,发现其输出输入 Jacobian 的平方条目的经验方差呈现简单依赖架构的常数 beta 的指数形式,该常数由隐藏层宽度的倒数之和组成,当 beta 很大时,N 在初始化时计算的梯度变化异常剧烈。我们的方法补充了随机网络的平均场理论分析,从这个视角出发,我们对处于混沌边缘的梯度统计的有限宽度修正进行了严格计算。
Jan, 2018
本研究旨在证明,通过添加跳跃连接,残差网络将采用基于解析方法确定的次指数正向和反向动态,从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证,Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。
Dec, 2017
本篇论文分析了 ResNet 的简化模型,并认为 ResNet 的好处与其对初始权重的选择较为不敏感有关系。此外,本文还演示了如何利用批归一化提高深度 ResNets 的反向传播能力,而无需调整初始权重值。
Sep, 2017
本文提出了三个初始化和架构选择原则的验证,在有限宽度图神经网络(GNN)和 ReLU 激活下,通过证明得出使用 He-initialization,并在初始时使用残差聚合运算符和残差连接的实践可以显著提高深度 ReLU GNN 在各种任务上的早期训练动力学。
Jun, 2023
通过引入新的权重初始化方法,本论文证明了所提出的初始权重矩阵的特性,展示了这些特性如何促进信号向量的有效传播,并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。
Nov, 2023
本文研究权重规范化神经网络的参数初始化策略,通过使用平均场近似方法,提出了一种新的参数初始化策略。通过超过 2500 次实验,本文展示了所提出的初始化方法在图像数据集上具有更好的泛化性能、超参数值鲁棒性和种子之间的变异性。而且,该初始化方法与学习率预热相结合,能减小权重规范化神经网络与批量规范化神经网络之间性能的差距。
Jun, 2019
提出了层顺序单元方差(LSUV)初始化 —— 一种用于深度学习网络权重初始化的简单方法,它包括两个步骤:使用正交矩阵预初始化每个卷积或内积层的权重,然后从第一层到最后一层,将每一层输出的方差标准化为 1。研究表明,该初始化方法使学习非常深的神经网络成为可能,其表现至少不逊于专门为此设计的复杂方案,并能在 MNIST、CIFAR-10/100 和 ImageNet 等数据集上实现接近最新水平的性能。
Nov, 2015
本研究提出了一种新的变换,完全兼容 ReLUs 的变种 ——Leaky ReLUs,并证明我们的方法可以实现与 ResNets 相当的准确性。
Mar, 2022
这篇论文研究了深度神经网络的权重初始化和激活函数对其训练性能的影响,证明了边缘混沌状态具有优异的表现,同时提出了一类叫做 Swish 的激活函数,可以优化信息传递。
May, 2018
通过使用零初始化参数对残差连接进行门控,满足初始动态等性,可以在深度学习中进行更快的收敛和更好的测试表现,并且我们可以轻松地训练 120 层变压器。
Mar, 2020