May, 2024

循环神经网络:梯度消失和梯度爆炸并非问题的终点

TL;DR递归神经网络在学习长期记忆方面存在困难,而最近基于状态空间模型的 RNN 取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性,这一特征存在于状态空间模型及其他架构中。总体而言,我们的观点为解释 RNN 梯度学习中的一些困难以及为什么有些架构表现更好提供了新的解释。