本文提出了一种新的神经网络架构,该架构学习一个特殊的方阵作为权重矩阵,使得隐藏层矩阵的特征值绝对值为 1,避免了权重矩阵导致的梯度问题;通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法,为学习长期依赖任务带来了先进的结果。
Nov, 2015
本文提出了使用全容量矩阵优化可微分流形上的酉矩阵的全容量 URNN,以解决循环神经网络中的梯度消失和爆炸问题,并证明了该参数化在隐藏状态维度大于 7 时具有受限制的容量,实验结果表明新模型在合成和自然数据上均具有优异的性能。
Oct, 2016
本文介绍了通过约束转移矩阵为正交矩阵来解决序列学习中的长期依赖性问题的方法,并针对简单 RNN 的情况提出了一种新的参数化方案,将正交约束应用于转移矩阵,以提高训练效率。
Dec, 2016
本文提出了一种使用斜对称矩阵参数化 Cayley 变换来维持正交循环权重矩阵并克服负特征值限制的更新方案,在多个实验中证明了比其他单元 RNN 的表现更优秀,需要的可训练参数更少。
Jul, 2017
探讨使用非正常的重复神经网络(RNNs)以解决梯度 “消失 / 爆炸” 的问题并提高 “信噪比”。研究显示,具有非正常的重复连接矩阵的非正常 RNN 可以在序列处理任务中胜过其正交对应物。
May, 2019
本论文研究了使用可定义为 Lie 代数与 Lie 群相关联的单位矩阵组 U (n) 来描述参数化单元操作符,并通过 Lie 代数的基础定义了一个由 n^2 个实系数组成的单位矩阵空间,以解决循环神经网络训练中的梯度消失或爆炸问题。研究表明,这种参数化方法在学习任意单位操作符和解决长期记忆问题方面具有高效性。
Jul, 2016
提出了一种基于 Schur 分解的新型连接结构,该结构不依赖于正交性约束,可以实现单位规范特征谱的参数化,具有更丰富的特征谱约束矩阵,从而提高 RNNs 的表达能力和训练速度。
本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题,使用正交矩阵作为约束条件以保持梯度范数,并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析,本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。
Jan, 2017
本文提出了一种新的神经网络结构,旨在避免消失/爆炸梯度问题,既解决了该问题,又取得了比许多其他结构更好的性能表现,它的核心思想是通过滤波和正交加和来实现非线性激活层之间的结合,从而防止梯度消失或爆炸,并成功应用于超过 50k 层和 10k 个时间步长的神经网络任务。
Oct, 2022
本文介绍一种基于复数伸缩 Cayley 变换的酉循环神经网络,通过使用能够使用梯度下降进行优化的对角伸缩矩阵,在不需要调整超参数的情况下,实现比 scoRNN 和其他酉循环神经网络更好的结果。
Nov, 2018