如何开始训练：初始化和架构的影响

NIPSMar, 2018

如何开始训练：初始化和架构的影响

How to Start Training: The Effect of Initialization and Architecture

Boris Hanin, David Rolnick

TL;DR本文针对深度 ReLU 神经网络早期训练的两种常见失效模式进行研究和识别，为每种模式提供了严格的证明以及如何避免。我们证明了正确的权重初始化以及架构可以使得深层神经网络成功训练，并在实验中证实了我们的理论结果的有效性。

Abstract

We identify and study two common failure modes for early training in deep ReLU nets. For each we give a rigorous proof of when it occurs and how to avoid it, for fully connected and residual architectures. The fi

deep relu nets failure modes symmetric distribution residual architectures initializations

发现论文，激发创造

哪些神经网络架构会导致梯度爆炸和梯度消失？

我们对一个使用 ReLU 激活的随机初始化全连接网络 N 的梯度统计行为进行了严格分析，发现其输出输入 Jacobian 的平方条目的经验方差呈现简单依赖架构的常数 beta 的指数形式，该常数由隐藏层宽度的倒数之和组成，当 beta 很大时，N 在初始化时计算的梯度变化异常剧烈。我们的方法补充了随机网络的平均场理论分析，从这个视角出发，我们对处于混沌边缘的梯度统计的有限宽度修正进行了严格计算。

Jan, 2018

均场剩余网络：朝向混沌的边缘

本研究旨在证明，通过添加跳跃连接，残差网络将采用基于解析方法确定的次指数正向和反向动态，从而有效地保护输入空间几何形态和梯度信息流。我们证明理论和实证，Xavier 或 He 方案等通用初始方案不是残差网络的最佳选择。

Dec, 2017

深度残差网络和权重初始化

本篇论文分析了 ResNet 的简化模型，并认为 ResNet 的好处与其对初始权重的选择较为不敏感有关系。此外，本文还演示了如何利用批归一化提高深度 ResNets 的反向传播能力，而无需调整初始权重值。

Sep, 2017

使用 ReLU 激活函数的图神经网络初始化和架构选择原则

本文提出了三个初始化和架构选择原则的验证，在有限宽度图神经网络（GNN）和 ReLU 激活下，通过证明得出使用 He-initialization，并在初始时使用残差聚合运算符和残差连接的实践可以显著提高深度 ReLU GNN 在各种任务上的早期训练动力学。

Jun, 2023

深且窄的前馈神经网络的改进权重初始化

通过引入新的权重初始化方法，本论文证明了所提出的初始权重矩阵的特性，展示了这些特性如何促进信号向量的有效传播，并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。

Nov, 2023

如何初始化网络？WeightNorm 和 ResNets 的鲁棒初始化

本文研究权重规范化神经网络的参数初始化策略，通过使用平均场近似方法，提出了一种新的参数初始化策略。通过超过 2500 次实验，本文展示了所提出的初始化方法在图像数据集上具有更好的泛化性能、超参数值鲁棒性和种子之间的变异性。而且，该初始化方法与学习率预热相结合，能减小权重规范化神经网络与批量规范化神经网络之间性能的差距。

Jun, 2019

只需一个良好的初始化

提出了层顺序单元方差（LSUV）初始化 —— 一种用于深度学习网络权重初始化的简单方法，它包括两个步骤：使用正交矩阵预初始化每个卷积或内积层的权重，然后从第一层到最后一层，将每一层输出的方差标准化为 1。研究表明，该初始化方法使学习非常深的神经网络成为可能，其表现至少不逊于专门为此设计的复杂方案，并能在 MNIST、CIFAR-10/100 和 ImageNet 等数据集上实现接近最新水平的性能。

Nov, 2015

无捷径的深度学习：定制整流器塑造核心

本研究提出了一种新的变换，完全兼容 ReLUs 的变种 ——Leaky ReLUs，并证明我们的方法可以实现与 ResNets 相当的准确性。

Mar, 2022

深度神经网络初始化和激活函数的选择

这篇论文研究了深度神经网络的权重初始化和激活函数对其训练性能的影响，证明了边缘混沌状态具有优异的表现，同时提出了一类叫做 Swish 的激活函数，可以优化信息传递。

May, 2018

ReZero 是您所需的：在大深度下快速收敛

通过使用零初始化参数对残差连接进行门控，满足初始动态等性，可以在深度学习中进行更快的收敛和更好的测试表现，并且我们可以轻松地训练 120 层变压器。

Mar, 2020