卷积幺正或正交循环神经网络

Feb, 2023

Convolutional unitary or orthogonal recurrent neural networks

Marcelo O. Magnasco

TL;DR该研究使用卷积指数函数，将反对称或反 - 厄米卷积核变换为正交或幺正卷积核，用于解决递归神经网络中的梯度消失问题，并通过提出 FFT 算法来优化计算。

Abstract

recurrent neural networks are extremely powerful yet hard to train. One of their issues is the vanishing gradient problem, whereby propagation of training signals may be exponentially attenuated, freezing trainin

recurrent neural networks vanishing gradient problem convolutional rnns orthogonal matrices unitary matrices

发现论文，激发创造

单幺正演化循环神经网络

本文提出了一种新的神经网络架构，该架构学习一个特殊的方阵作为权重矩阵，使得隐藏层矩阵的特征值绝对值为 1，避免了权重矩阵导致的梯度问题；通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法，为学习长期依赖任务带来了先进的结果。

Nov, 2015

全容量幺模循环神经网络

本文提出了使用全容量矩阵优化可微分流形上的酉矩阵的全容量 URNN，以解决循环神经网络中的梯度消失和爆炸问题，并证明了该参数化在隐藏状态维度大于 7 时具有受限制的容量，实验结果表明新模型在合成和自然数据上均具有优异的性能。

Oct, 2016

使用 Householder 反射进行递归神经网络的高效正交参数化

本文介绍了通过约束转移矩阵为正交矩阵来解决序列学习中的长期依赖性问题的方法，并针对简单 RNN 的情况提出了一种新的参数化方案，将正交约束应用于转移矩阵，以提高训练效率。

Dec, 2016

具有缩放 Cayley 变换的正交循环神经网络

本文提出了一种使用斜对称矩阵参数化 Cayley 变换来维持正交循环权重矩阵并克服负特征值限制的更新方案，在多个实验中证明了比其他单元 RNN 的表现更优秀，需要的可训练参数更少。

Jul, 2017

使用顺序非标准动力学改善循环神经网络的记忆能力

探讨使用非正常的重复神经网络（RNNs）以解决梯度 “消失 / 爆炸” 的问题并提高 “信噪比”。研究显示，具有非正常的重复连接矩阵的非正常 RNN 可以在序列处理任务中胜过其正交对应物。

May, 2019

利用 u (n) 辅助学习幺正算子

本论文研究了使用可定义为 Lie 代数与 Lie 群相关联的单位矩阵组 U (n) 来描述参数化单元操作符，并通过 Lie 代数的基础定义了一个由 n^2 个实系数组成的单位矩阵空间，以解决循环神经网络训练中的梯度消失或爆炸问题。研究表明，这种参数化方法在学习任意单位操作符和解决长期记忆问题方面具有高效性。

Jul, 2016

非标准循环神经网络 (nnRNN)：通过瞬态动力学学习长时依赖关系并提高表达能力

提出了一种基于 Schur 分解的新型连接结构，该结构不依赖于正交性约束，可以实现单位规范特征谱的参数化，具有更丰富的特征谱约束矩阵，从而提高 RNNs 的表达能力和训练速度。

May, 2019

关于正交性和学习具有长期依赖性的递归网络

本文探讨了针对深度神经网络和循环神经网络中的梯度消失或梯度爆炸问题，使用正交矩阵作为约束条件以保持梯度范数，并且提出了一种使用矩阵分解和参数化策略的方法以控制反向传播期间所导致的扩张性。通过分析，本文发现硬正交矩阵约束会对收敛速度和模型性能产生负面影响。

Jan, 2017

随机正交加性滤波器：深度神经网络梯度消失 / 爆炸问题的解决方案

本文提出了一种新的神经网络结构，旨在避免消失／爆炸梯度问题，既解决了该问题，又取得了比许多其他结构更好的性能表现，它的核心思想是通过滤波和正交加和来实现非线性激活层之间的结合，从而防止梯度消失或爆炸，并成功应用于超过 50k 层和 10k 个时间步长的神经网络任务。

Oct, 2022

使用缩放 Cayley 变换的复数单位循环神经网络

本文介绍一种基于复数伸缩 Cayley 变换的酉循环神经网络，通过使用能够使用梯度下降进行优化的对角伸缩矩阵，在不需要调整超参数的情况下，实现比 scoRNN 和其他酉循环神经网络更好的结果。

Nov, 2018