深度神经网络中的权重初始化

Apr, 2017

On weight initialization in deep neural networks

Siddharth Krishna Kumar

TL;DR本文阐述了权重初始化对神经网络收敛的关键性，通过研究非线性激活函数的影响，提出了一种通用的权重初始化策略，并解释了为什么 Xavier 初始化在 Rectified Linear Unit 激活函数下效果不佳。

Abstract

A proper initialization of the weights in a neural network is critical to its convergence. Current insights into weight initialization come primarily from linear activation functions. In this paper, I develop a t

neural network weight initialization non-linear activations rectified linear unit xavier initialization

发现论文，激发创造

深且窄的前馈神经网络的改进权重初始化

通过引入新的权重初始化方法，本论文证明了所提出的初始权重矩阵的特性，展示了这些特性如何促进信号向量的有效传播，并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。

Nov, 2023

采用 ReLU 非线性激活函数优化循环神经网络性能

本文针对使用 ReLU 非线性函数的循环神经网络提出一种修改后的权重初始化策略，并通过三个长期时间结构遵循的玩具问题以及一个基准动作识别问题的实验结果证实了该策略的有效性。

Nov, 2015

利用线性初始化改进自编码器收敛速度和完全训练误差

通过引入 Straddled Matrix Initialiser 以及 ReLU 激活函数的组合，本文通过在三个数据集上的 autoencoder 实验验证了该初始化技术优于其他现有权重初始化方法的性能。

Nov, 2023

神经网络激活函数的作用

本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。

Oct, 2019

使用标准化层训练的 ReLU 神经网络的优化理论

本文研究了引入规范化层对神经网络的全局收敛速度和优化效果的影响，证明了在引入 Weight Normalization 后，具有 ReLU 激活函数的两层神经网络可以加速收敛。

Jun, 2020

深度神经网络初始化和激活函数的选择

这篇论文研究了深度神经网络的权重初始化和激活函数对其训练性能的影响，证明了边缘混沌状态具有优异的表现，同时提出了一类叫做 Swish 的激活函数，可以优化信息传递。

May, 2018

通过梯度下降学习 ReLU

本文研究学习呈现形式为 $max (0,<w,x>)$ 的修正线性单元（ReLUs）的问题，聚焦于高维场景下，权重向量的维数大于样本数的情形，针对实现可能性模型，展示了投影梯度下降算法在 0 处初始化的线性收敛率，这一结果对于深度架构的动态具有一定的参考价值。

May, 2017

使用 ReLU 激活函数的图神经网络初始化和架构选择原则

本文提出了三个初始化和架构选择原则的验证，在有限宽度图神经网络（GNN）和 ReLU 激活下，通过证明得出使用 He-initialization，并在初始时使用残差聚合运算符和残差连接的实践可以显著提高深度 ReLU GNN 在各种任务上的早期训练动力学。

Jun, 2023

学习激活函数的组合

本文介绍了两种自动学习不同激活函数组合的方法，并在三个标准数据集上与著名的体系结构进行了比较，显示了整体性能的显着改进。

Jan, 2018

深度神经网络 MNIST 分类任务的非线性激活函数比较

本文介绍了常见的非线性激活函数，并对它们的特点进行了评估。同时，分析了深层神经网络及其与权重初始化方法的关系，其中将特别关注节点的入度和出度对整个网络的影响。

Apr, 2018