关于正交性和学习具有长期依赖性的递归网络

Jan, 2017

关于正交性和学习具有长期依赖性的递归网络

On orthogonality and learning recurrent networks with long term dependencies

Eugene Vorontsov, Chiheb Trabelsi, Samuel Kadoury, Chris Pal

TL;DR本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题，使用正交矩阵作为约束条件以保持梯度范数，并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析，本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。

Abstract

It is well known that it is challenging to train deep neural networks and recurrent neural networks for tasks that exhibit long term dependencies. The vanishing or exploding gradient problem is a well known issue associated with these challenges. One approach to addressing vanishing an

deep neural networks vanishing/exploding gradient orthogonality optimization backpropagation

发现论文，激发创造

深度神经网络中使用正交初始化解决梯度不稳定性的生物合理性探究

本文提出了两种初始化方案，允许网络自然演化其权重形成正交矩阵，并提供理论分析，预先训练正交化始终收敛，并通过实验证实，所提出的方案优于随机初始化的递归和前向网络。

Oct, 2022

学习正交深度线性神经网络的收敛分析

通过对正交性进行收敛性分析，揭示了正交性对训练深度神经网络的收敛速度的影响，并通过实验证实了理论分析的有效性。

Nov, 2023

广义反向传播，案例研究：正交性

本研究介绍了一种新的 backpropagation 算法，并使用 Riemannian 几何和优化技术在矩阵流形上实现了层与层之间约束权重的深度神经网络，特别是引入了 Stiefel 层，对于无监督的特征学习至细粒度图像分类有很多好处。

Nov, 2016

卷积幺正或正交循环神经网络

该研究使用卷积指数函数，将反对称或反 - 厄米卷积核变换为正交或幺正卷积核，用于解决递归神经网络中的梯度消失问题，并通过提出 FFT 算法来优化计算。

Feb, 2023

训练 DNNs 中的可控正交化

本文提出了一种使用牛顿迭代法的正交化方法 (ONI)，它可以通过进行迭代来控制权重矩阵的正交性，同时保持模型的表征能力，从而有效地提高图像分类网络和生成对抗网络 (GANs) 的性能。

Apr, 2020

使用顺序非标准动力学改善循环神经网络的记忆能力

探讨使用非正常的重复神经网络（RNNs）以解决梯度 “消失 / 爆炸” 的问题并提高 “信噪比”。研究显示，具有非正常的重复连接矩阵的非正常 RNN 可以在序列处理任务中胜过其正交对应物。

May, 2019

非标准循环神经网络 (nnRNN)：通过瞬态动力学学习长时依赖关系并提高表达能力

提出了一种基于 Schur 分解的新型连接结构，该结构不依赖于正交性约束，可以实现单位规范特征谱的参数化，具有更丰富的特征谱约束矩阵，从而提高 RNNs 的表达能力和训练速度。

May, 2019

通过近似正交约束的鲁棒低秩训练

介绍了一种在保证模型精度的情况下，同时降低深度学习中推理和训练成本，并通过基于神经网络条件数的模型稳健性表明低秩矩阵分解（low-rank matrix factorizations）容易导致模型鲁棒性的问题，提出了一种基于鲁棒低秩矩阵训练的算法，通过施加近似正交约束，保证了低秩表示与近似完整的模型之间精度。通过实验证明降低深度学习模型中推理和训练成本的同时，提高了模型的鲁棒性。

Jun, 2023

循环神经网络训练的困难性

从分析、几何和动力系统的角度探讨了递归神经网络的梯度消失和梯度爆炸问题，提出了一种简单而有效的梯度剪裁策略和软约束以解决这些问题。

Nov, 2012

DizzyRNN：对循环神经网络重新参数化以保持范数的反向传播

我们通过 Givens 旋转提出了一种标准循环神经网络的重新参数化方法，以在保持范数的情况下更新线性变换，并使用绝对值函数作为逐元素非线性，以在整个网络上保持反向传播信号的范数。实验证明，该重新参数化方法在保持相同算法复杂度的情况下，优于具有正交初始值的标准循环神经网络和长短期记忆网络。

Dec, 2016