BriefGPT.xyz
May, 2018
深度学习中步长的重要性
Step Size Matters in Deep Learning
HTML
PDF
Kamil Nar, S. Shankar Sastry
TL;DR
利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统,算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象,如训练误差的恶化和深度残差网络的性能差异等。
Abstract
Training a
neural network
with the
gradient descent algorithm
gives rise to a discrete-time nonlinear
dynamical system
. Consequently, beha
→