关于线性递归网络在长序列括号计数上的理论条件和实证失败
本研究探究了 LSTM、ReLU 和 GRU 模型在长序列计数任务的泛化能力,并发现虽然先前的理论工作已经建立了具有适当配置的 RELU 激活和 LSTM 的计数能力,但是 LSTM 模型在实验中仍无法学习到正确的计数行为,并且从验证损失及不同模型的失效方式等角度对问题进行了讨论。
Nov, 2022
本文系统评估了标准循环神经网络在动态计数和编码分层表示方面的能力,研究结果表明 LSTM 网络可以通过模拟简单的实时 k 计数机学习识别平衡的括号语言和多个括号语言的洗牌,并且单层 LSTM 通过识别 Dyck-1 语言的任务表现良好,但是不能掌握类似于堆栈机制的 Dyck-2 语言任务的性能。
Jun, 2019
本文研究了有限精度的 RNNs,证明 LSTM 和 Elman-RNN with ReLU activation 比 RNN with a squashing activation 和 GRU 更加强大,可以实现计数行为,并且实验证明了 LSTM 学习了有效地使用计数机制。
May, 2018
通过对训练语言模型进行计数,我们发现传统的 RNN 在归纳计数方面的性能远远优于现代 RNN,并且 Transformers 在域外计数方面依赖于位置嵌入,这一发现呼吁学术界重新审视对形式特征的基本函数的应用范围。
May, 2024
研究说明传统的循环神经网络(RNNs)在需要长期记忆的任务上表现不佳的原因是因为其随机初始化后的转移矩阵方差造成了梯度消失和梯度爆炸的问题,而使用线性 RNNs 代替时会出现更短的记忆偏差,这一理论经过人工数据和真实数据的验证。
Jan, 2021
本研究旨在揭示循环神经网络的归纳偏差,即输出序列频率,LSTM 和 GRU 的归纳偏差偏向于低频模式,而 Elman RNN 则倾向于学习高频输出模式,同时发现 LSTM 和 GRU 的归纳偏差会随着层数和隐藏层大小的变化而改变。
May, 2023
本研究对长短期记忆网络的归纳学习能力进行了实证评估,发现在不同的训练设置下模型性能存在显著差异,并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。
Nov, 2018
最近的研究表明,在自然语言建模和长期建模方面,线性递归神经网络(LRNN)取得了与 Transformer 相媲美的性能,同时提供了快速的并行训练和恒定的推断成本。通过研究 LRNN 的潜在规则学习能力,我们在理论上分析了一些现有的 LRNN,并发现它们在正则语言上存在一些限制。在分析的基础上,我们提出了一种新的 LRNN 模型,它配备了一个块对角线和输入相关的转移矩阵。实验证明,所提出的模型是唯一能够在正则语言任务(如求和、偶数对和模运算)中进行长度外推的 LRNN 模型。
Sep, 2023
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文探讨了使用循环神经网络学习解决实值组合图问题的可行性,提出了用于上限样本复杂度的理论框架,并证明了单层和多层循环神经网络可以在多项式数量级的样本数下对于最大顶点个数为 n 的图进行学习。
Jan, 2019