层次门控循环神经网络用于序列建模
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
HGRN2 通过引入基于外积的状态扩展机制,在不引入额外参数的情况下,显著增加了循环状态大小,提高了语言建模、图像分类和长距离竞技场方面的性能。
Apr, 2024
本文介绍了一种称为 LRN 的轻量级循环神经网络,它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸,并且可以作为替代现有循环单元的可落地的解决方案,该方法将计算量从循环中转移至外部,并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明,使用 LRN 能够获得最高的运行效率,而且模型性能几乎没有损失。
May, 2019
本研究提出一种新型的循环神经网络结构,即门控反馈循环神经网络,通过全局门控单元来控制和允许来自上层循环层到下层层的信号,改进了现有的多层循环层叠加方法,我们评估了不同类型的循环神经元,如 tanh,长短时记忆和门循环单元,在字符级语言建模和 Python 程序评估等任务上,实验证明 GF-RNN 优于传统方法构建深度堆叠循环神经网络,因为 GF-RNN 可以通过学习对这些交互进行门控从而自适应地将不同的层分配给不同的时间尺度和层间交互。
Feb, 2015
本研究提出了一种新型神经网络结构,更好地建模序列数据的长期依赖性,称之为 higher order RNNs,实验结果表明,比常规 RNNs 和 LSTMs 性能都要好,适用于各种序列模型任务。
Apr, 2016
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文提出了一种基于递归神经网络(RNN)的新模型,它结合了单元 RNN 的记忆能力和门控 RNN 的遗忘冗余 / 无关信息的能力,并通过引入栅门机制扩展了单元 RNN。该模型能够在多项长期依赖基准任务上优于 LSTMs、GRUs 和单元 RNNs,并在多个自然顺序任务中提供有竞争力的结果,包括 bAbI 问题回答、TIMIT 音频预测、Penn TreeBank 和长期依赖的合成任务,如算法、括号、去噪和复制任务。
Jun, 2017
本文比较了不同类型的递归神经网络中的递归单元,特别是实现门机制的更加复杂的递归单元,例如长短时记忆(LSTM)单元和最近提出的门控循环单元(GRU),我们在复调音乐建模和语音信号建模的任务中对这些递归单元进行了评估,实验证明这些先进的递归单元确实比传统的 tanh 单元更好,同时我们发现 GRU 与 LSTM 相当。
Dec, 2014
该文提出了一种递归控制递归网络 (RCRN) 架构,利用递归网络学习递归门控函数,将其用于不同自然语言处理任务,结果表明 RCRN 在比双向 LSTM 和双向 LSTM 堆叠表现更好,具有代替双向 LSTM 堆叠的潜力。
Nov, 2018