我们还需要RNN吗?
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM和BRNN等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本研究提出了一种新型神经网络结构,更好地建模序列数据的长期依赖性,称之为higher order RNNs,实验结果表明,比常规RNNs和LSTMs性能都要好,适用于各种序列模型任务。
Apr, 2016
本研究提出了一种改进的循环单元,使其能够在学习时不需要事先了解序列的时间结构就能够灵活地调整每个时间步骤的计算量,从而提高模型的容量和性能,实验证明该方法能够在评估任务中取得更好的性能表现并减少计算量。
Nov, 2016
通过实验证实了,所有常见的递归神经网络在仔细训练后达到了近乎相同的任务能力和单元容量边界,而许多以前的结果比较不同的递归神经网络结构主要是由于训练效果的差异而不是由于容量的差异驱动的。同时,作者还提出了两个新的递归神经网络结构,其中一个对于深度堆叠结构的训练比LSTM或GRU更容易。
Nov, 2016
本文提出了一种轻量级循环单元(SRU),用于解决基于状态计算的传统循环神经网络因难以实现高度并行化而难以扩展的问题。SRU具有表达力强、高度可并行化、易于训练等特点,在多个自然语言处理任务上表现出色,并且在分类和问答数据集上实现了5-9倍的速度提升,优于LSTM和卷积模型。同时,将SRU引入到Transformer模型中,可以在翻译任务上平均提高0.7 BLEU分数。
Sep, 2017
该研究论文描述了使用线性顺序依赖关系的RNN可以使用并行扫描算法在序列长度上进行并行化训练,通过开发并行线性递归CUDA内核,加速多种最先进的RNN架构的训练和推理,扩展序列学习到以前无法触及的极长序列区域并成功训练GILR-LSTM进行一百万时间步长的合成序列分类任务。
Sep, 2017
通过使用一种被称为状态规范化的机制来处理以前递归神经网络(RNNs)的不足,从而提高RNNs的状态转移动态分析和解释性,并将其应用于自动机抽取,自然语言处理和计算机视觉中。
Jan, 2019
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM)及其变体,在训练过程中解决长序列中的梯度消失/爆炸问题,并详细介绍了LSTM 中的门控单元,双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。
Apr, 2023
本研究解决了变换器在序列长度上的可扩展性限制,通过重新评估传统的递归神经网络(RNN),如LSTM和GRU,提出了一种新方法。通过消除隐藏状态在输入、遗忘和更新门中的依赖关系,研究者展示了简化版本(minLSTMs和minGRUs)不仅参数显著减少,而且训练过程中可以完全并行化,效率提升175倍,并且与最新的序列模型在性能上具有可比性。
Oct, 2024