重新思考循环神经网络与非循环神经网络的关系:稀疏性研究
该论文系统分析了循环神经网络连接体系结构,并提出了三种体系结构复杂度量度,包括循环深度、前馈深度和循环跳跃系数,并通过实验结果发现增加循环深度和前馈深度可以改善RNN的表现,在长期依赖问题上提高循环跳跃系数可以提升性能。
Feb, 2016
通过实验证实了,所有常见的递归神经网络在仔细训练后达到了近乎相同的任务能力和单元容量边界,而许多以前的结果比较不同的递归神经网络结构主要是由于训练效果的差异而不是由于容量的差异驱动的。同时,作者还提出了两个新的递归神经网络结构,其中一个对于深度堆叠结构的训练比LSTM或GRU更容易。
Nov, 2016
本文通过mean field理论和随机矩阵理论的结合,解析了recurrent neural networks中gating机制的信号传播机理,并通过最小化的多层感知器网络(minimalRNN)与RNN的对比,研究了它们的训练性能。提出了初始方案的动态等角分解,并通过语言建模任务,证明了最小RNN可以与LSTM或GRU等复杂网络相媲美。
Jun, 2018
该论文旨在通过从信号处理中提取概念,正式导出经典的RNN公式,揭示LSTM系统的组成部分,并将RNN转换为Vanilla LSTM网络,以便于理解和实现。在此基础上,作者提出了基于Vanilla LSTM的最新扩展,适合机器学习从业者参考和研究。
Aug, 2018
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用ReLU激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析ReLU激活的多层网络的一阶数学逼近。
Oct, 2018
探讨使用非正常的重复神经网络(RNNs)以解决梯度“消失/爆炸”的问题并提高“信噪比”。研究显示,具有非正常的重复连接矩阵的非正常RNN可以在序列处理任务中胜过其正交对应物。
May, 2019
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出了网络大小 $m$ 和迭代复杂性 $ au$ 的精确界限,(ii) 显示了动态系统中长期依赖对收敛性和以激活函数的李普希茨连续性界限所刻画的网络宽度界限的显著影响,该界限依赖于激活函数的李普希茨连续性。值得注意的是,这个分析揭示了一个适当初始化的使用 $n$ 个样本进行训练的递归神经网络可以在网络大小 $m$ 的低次对数尺度下实现最优性。这与之前的工作形成鲜明对比,前者需要 $m$ 对 $n$ 的高阶多项式依赖来建立强正则条件。我们的结果基于对递归神经网络能够逼近和学习的动态系统类的明确描述,通过约束范数的传输映射,并且通过建立隐藏状态相对于可学习参数的局部平滑性属性来实现。
Feb, 2024
循环神经网络(RNNs)作为语言模型(LMs)的经验成功可能与其能够有效地表示人类语言中的有界分层结构有关,并且可以推广其构造以表示更大类别的LMs,即可以用带有边界堆栈和广义堆栈更新函数的推挤自动机来表示。然而,RNNs在表示多样化的非分层LM类别时的效率表明其缺乏具体的认知和以人类语言为中心的归纳偏见。
Feb, 2024
递归神经网络在学习长期记忆方面存在困难,而最近基于状态空间模型的RNN取得的成功挑战了我们的理论理解。我们的分析揭示了元素逐个递归设计模式和谨慎参数设置在缓解这种效应方面的重要性,这一特征存在于状态空间模型及其他架构中。总体而言,我们的观点为解释RNN梯度学习中的一些困难以及为什么有些架构表现更好提供了新的解释。
May, 2024