使用顺序非标准动力学改善循环神经网络的记忆能力
介绍了一种新算法,NoBackTrack,可用于训练动态系统参数,与传统算法相比,该算法无需进行时间反向传播,缩短计算和内存成本,并可扩展到包括递归神经网络在内的各种动态系统。
Jul, 2015
本文提出了一种使用斜对称矩阵参数化 Cayley 变换来维持正交循环权重矩阵并克服负特征值限制的更新方案,在多个实验中证明了比其他单元 RNN 的表现更优秀,需要的可训练参数更少。
Jul, 2017
本文通过mean field理论和随机矩阵理论的结合,解析了recurrent neural networks中gating机制的信号传播机理,并通过最小化的多层感知器网络(minimalRNN)与RNN的对比,研究了它们的训练性能。提出了初始方案的动态等角分解,并通过语言建模任务,证明了最小RNN可以与LSTM或GRU等复杂网络相媲美。
Jun, 2018
本文介绍一种基于复数伸缩Cayley变换的酉循环神经网络,通过使用能够使用梯度下降进行优化的对角伸缩矩阵,在不需要调整超参数的情况下,实现比scoRNN和其他酉循环神经网络更好的结果。
Nov, 2018
提出了一种基于Schur分解的新型连接结构,该结构不依赖于正交性约束,可以实现单位规范特征谱的参数化,具有更丰富的特征谱约束矩阵,从而提高RNNs的表达能力和训练速度。
May, 2019
通过引入弱耦合残差循环神经网络(WCRNNs),本研究调查了残差连接对性能、网络动力学和记忆属性的影响,并展示了特定形式的残差连接如何提高实用表达能力。
Jul, 2023
开发数学方法来表征随着隐藏单元数量、数据样本序列、隐藏状态更新和训练步骤同时趋向于无穷大,递归神经网络(RNN)的渐近特性。通过研究联合随机代数方程的无穷维ODE的解,我们证明了简化权重矩阵的RNN收敛到一个无穷维ODE的解与固定点耦合。这项分析需要解决针对RNN独特的几个挑战,而标准的均场技术无法应用于RNN,因此我们开发了一种用于RNN记忆状态演进的固定点分析方法,并对更新步骤和隐藏单元数量给出了收敛估计。当数据样本和神经网络规模趋向于无穷大时,这些数学方法导致了RNN在数据序列上训练时的神经切向核(NTK)极限。
Aug, 2023
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
神经网络可以划分为两种广义类别,递归和非递归。本文认为这两种神经网络类型之间存在比通常意识到的更为密切的关系,并阐述了其中的迭代映射关系。这种关系不仅限于理论上的Turing完全性,更涉及神经网络的训练和实践等方面的深入洞察。
Apr, 2024
递归神经网络在学习长期记忆方面存在困难,而最近基于状态空间模型的RNN取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性,这一特征存在于状态空间模型及其他架构中。总体而言,我们的观点为解释RNN梯度学习中的一些困难以及为什么有些架构表现更好提供了新的解释。
May, 2024