Mar, 2018

通过高效 SVD 参数化稳定深度神经网络梯度

TL;DR本文提出了一种基于奇异值分解(SVD)的转移矩阵参数化方法,通过显式控制奇异值来解决在训练中发生的梯度消失和梯度爆炸问题,该方法在实验中表现出了更快的收敛速度和更好的泛化性能,特别是在捕捉长程依赖关系方面的表现较好。