循环神经网络语言模型表达能力下界
通过实验证实了,所有常见的递归神经网络在仔细训练后达到了近乎相同的任务能力和单元容量边界,而许多以前的结果比较不同的递归神经网络结构主要是由于训练效果的差异而不是由于容量的差异驱动的。同时,作者还提出了两个新的递归神经网络结构,其中一个对于深度堆叠结构的训练比LSTM或GRU更容易。
Nov, 2016
本文研究了有限精度的RNNs,证明LSTM和Elman-RNN with ReLU activation比RNN with a squashing activation和GRU更加强大,可以实现计数行为,并且实验证明了LSTM学习了有效地使用计数机制。
May, 2018
本研究对长短期记忆网络的归纳学习能力进行了实证评估,发现在不同的训练设置下模型性能存在显著差异,并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。
Nov, 2018
通过训练循环神经网络(RNN)来学习识别正则形式语言时使用的内部表示,我们研究了一个简单的解码函数,其将该 RNN 的状态映射到该语言的最小确定性有限自动机(MDFA)的状态,进而探讨了RNN内部表示与有限状态自动机之间的强结构关系,解释了RNN识别正式语法结构的能力。
Feb, 2019
最近的研究表明,在自然语言建模和长期建模方面,线性递归神经网络(LRNN)取得了与Transformer相媲美的性能,同时提供了快速的并行训练和恒定的推断成本。通过研究LRNN的潜在规则学习能力,我们在理论上分析了一些现有的LRNN,并发现它们在正则语言上存在一些限制。在分析的基础上,我们提出了一种新的LRNN模型,它配备了一个块对角线和输入相关的转移矩阵。实验证明,所提出的模型是唯一能够在正则语言任务(如求和、偶数对和模运算)中进行长度外推的LRNN模型。
Sep, 2023
这项研究通过扩展第二阶循环神经网络的理论基础,证明存在一类有界时间的第二阶循环神经网络,具备图灵完备性,可以直接将转移表编码到其循环权重中,实现有界时间计算,并通过设计可解释。同时,该研究还展示了在有界权重和时间约束下,没有记忆的第二阶循环神经网络在识别正则语法方面优于传统的循环神经网络和门控循环单元等现代模型,并提供了识别任何一类正则语法所需的最大神经元数量的上界和稳定性分析。大量关于Tomita语法的实验证实了研究结果,并展示了采用第二阶循环神经网络进行解释和提取状态机时的成功率较一阶循环神经网络更高。这些结果拓展了循环神经网络的理论基础,并为未来可解释人工智能的研究提供了有希望的方向。
Sep, 2023
本文研究了RNN语言模型对概率分布的表示能力,发现简单的RNN等效于概率有限状态自动机,能够表示有限状态模型可表达的概率分布的严格子集,同时研究了用RNN表示确定性有限状态语言模型的空间复杂度。这些结果对于了解RNN语言模型的能力和限制具有重要意义。
Oct, 2023
通过研究基于递归神经网络的语言模型(LMs)的计算表达能力,本文通过扩展图灵完备性结果到概率情况,展示了有理加权RLM在无界计算时间下可以模拟任何概率图灵机。相反,在实时计算限制下,这些模型可以模拟确定性的实时有理PTM。
Oct, 2023
循环神经网络(RNNs)作为语言模型(LMs)的经验成功可能与其能够有效地表示人类语言中的有界分层结构有关,并且可以推广其构造以表示更大类别的LMs,即可以用带有边界堆栈和广义堆栈更新函数的推挤自动机来表示。然而,RNNs在表示多样化的非分层LM类别时的效率表明其缺乏具体的认知和以人类语言为中心的归纳偏见。
Feb, 2024