May, 2016

使用 ReLU 激活函数的循环神经网络的路径归一化优化

TL;DR研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径 - SGD 优化方法,它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性,与使用 SGD 训练的 RNN 相比,即使使用各种最近推荐的初始化方案。