提出了一种基于 Schur 分解的新型连接结构,该结构不依赖于正交性约束,可以实现单位规范特征谱的参数化,具有更丰富的特征谱约束矩阵,从而提高 RNNs 的表达能力和训练速度。
May, 2019
我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法,以在保持范数的情况下更新线性变换,并使用绝对值函数作为逐元素非线性,以在整个网络上保持反向传播信号的范数。实验证明,该重新参数化方法在保持相同算法复杂度的情况下,优于具有正交初始值的标准循环神经网络和长短期记忆网络。
Dec, 2016
该研究使用卷积指数函数,将反对称或反 - 厄米卷积核变换为正交或幺正卷积核,用于解决递归神经网络中的梯度消失问题,并通过提出 FFT 算法来优化计算。
Feb, 2023
本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题,使用正交矩阵作为约束条件以保持梯度范数,并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析,本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。
Jan, 2017
本文针对使用 ReLU 非线性函数的循环神经网络提出一种修改后的权重初始化策略,并通过三个长期时间结构遵循的玩具问题以及一个基准动作识别问题的实验结果证实了该策略的有效性。
Nov, 2015
本文研究借助正交参数化技术解决循环神经网络中的梯度弥散问题,提出了一种 Adaptive-Saturated RNNs (ASRNN) 变种,它动态调整饱和度水平,融合传统循环神经网络的高内存容量与正交循环神经网络的稳定性。实验结果表明,ASRNN 比其他几种竞争对手在具有挑战性的序列学习基准上表现更好。
Apr, 2023
本文提出了一种新的神经网络架构,该架构学习一个特殊的方阵作为权重矩阵,使得隐藏层矩阵的特征值绝对值为 1,避免了权重矩阵导致的梯度问题;通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法,为学习长期依赖任务带来了先进的结果。
通过纠正 ReLU 激活函数等非线性因素,我们的研究提出了纠正黑盒算法偏见的新方法,有效地保护敏感数据,并在线性模型中进行正交化、在卷积神经网络中进行元数据的归一化以及在预定义的嵌入中矫正不想要的属性。
May, 2024
该研究探讨了将批归一化应用于循环神经网络的效果,结果发现在输入到隐藏层的转换中,批归一化可以加快训练收敛速度,但对于语言建模和语音识别任务上的泛化能力没有提高;同时,应用批归一化到 RNNs 比应用到前馈网络更具有挑战性,但是某些变体仍然是有益的。
Oct, 2015
本文通过分析两个合成数据集来研究 RNNs 在处理长期依赖问题时的信息存储方法,并阐明了几种不同类型信息在 RNNs 中如何存储,这同时解释了最近采用的指定初始化或转移矩阵约束的方法的成功。
Feb, 2016