May, 2018

深度学习中步长的重要性

TL;DR利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统,算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象,如训练误差的恶化和深度残差网络的性能差异等。