一种无混沌的循环神经网络
通过系统实证分析,本文发现在文本生成等实际应用场景下,基本的 RNN 或 LSTM RNN 的训练过程中不会表现出混沌行为,这一发现说明未来的研究应该将方向放在非线性动力学的另一个方面上。
Apr, 2020
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017
本研究提出一种新型的循环神经网络结构,即门控反馈循环神经网络,通过全局门控单元来控制和允许来自上层循环层到下层层的信号,改进了现有的多层循环层叠加方法,我们评估了不同类型的循环神经元,如 tanh,长短时记忆和门循环单元,在字符级语言建模和 Python 程序评估等任务上,实验证明 GF-RNN 优于传统方法构建深度堆叠循环神经网络,因为 GF-RNN 可以通过学习对这些交互进行门控从而自适应地将不同的层分配给不同的时间尺度和层间交互。
Feb, 2015
提出了一种具有遗忘门的分层门控递归神经网络 (HGRN) 模型,其中遗忘门受可学习值下界限制,使得上层能够建模长期依赖,而下层能够建模更局部、短期的依赖关系。通过在语言建模、图像分类和长距离竞技场测试中进行实验,证明了该模型的高效性和有效性。
Nov, 2023
通过采用极简的更新规则,MinimalRNN 在学习和测试上不仅高效,而且更易解释和训练。最后,通过考察输入输出的 Jacobi 矩阵,发现 MinimalRNN 能够捕捉比现有 RNN 结构更长程的依赖关系。
Nov, 2017
本研究旨在回答两个问题:a)为什么长短期记忆(LSTM)作为一种序列模型在 SPSS 中表现良好;b)哪个元素(例如,输入门,输出门,遗忘门)最重要。 通过一系列实验以及视觉分析,我们提出了一种简化的架构,比 LSTM 具有较少的参数,从而大大降低了生成一般的复杂性而不降低质量。
Jan, 2016
本文提出采用连续时间动力学系统的视角看待循环神经网络(RNNs),并提出了一种描写隐藏状态演变的循环单元,该单元包含一个经过深思熟虑的线性组成部分和一个 Lipschitz 非线性组成部分来促进该单元的长期稳定性分析;并通过实验表明,Lipschitz RNN 在计算机视觉、语言建模和语音预测任务中的表现优于现有的循环单元;通过利用 Hessian 的分析证明我们的 Lipschitz 循环单元相对于其他连续时间 RNN 对输入和参数扰动更具稳健性。
Jun, 2020