BriefGPT.xyz
Jan, 2020
优化深度线性网络中正交初始化的可证明优势
Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear Networks
HTML
PDF
Wei Hu, Lechao Xiao, Jeffrey Pennington
TL;DR
本文研究在深度神经网络的梯度优化中最具影响力的超参数选择之一——初始参数值的选择,分析了不同初始化方案的具体影响,证明了从正交组中绘制初始权重相对于具有独立同分布权重的标准高斯初始化会加速收敛,并且展示了如何通过基于动态等谱性的初始化原理初始化非线性网络以获得最佳效果。
Abstract
The selection of initial parameter values for gradient-based optimization of
deep neural networks
is one of the most impactful hyperparameter choices in deep learning systems, affecting both
convergence
times and
→