本文提出了使用全容量矩阵优化可微分流形上的酉矩阵的全容量 URNN,以解决循环神经网络中的梯度消失和爆炸问题,并证明了该参数化在隐藏状态维度大于 7 时具有受限制的容量,实验结果表明新模型在合成和自然数据上均具有优异的性能。
Oct, 2016
本文介绍了一个新的神经网络架构 Decay RNN,它可以通过模拟神经元的抑制和兴奋连接,更好地学习长期依赖关系,相较于 LSTM 在语言任务上也表现十分出色,这为 RNN 成功建模语言现象所需的归纳偏差提供了一些线索。
May, 2020
本文提出了一种新型的单位神经元网络(EUNNs)架构,利用其完全可调的单元空间表示能力,作为解决神经网络梯度爆炸 / 消失问题和学习数据长期相关性的一种有前途的方法,并证明其性能较其他现有的神经网络和 LSTM 架构在各种应用场景下具有优越性。
Dec, 2016
本文提出采用连续时间动力学系统的视角看待循环神经网络(RNNs),并提出了一种描写隐藏状态演变的循环单元,该单元包含一个经过深思熟虑的线性组成部分和一个 Lipschitz 非线性组成部分来促进该单元的长期稳定性分析;并通过实验表明,Lipschitz RNN 在计算机视觉、语言建模和语音预测任务中的表现优于现有的循环单元;通过利用 Hessian 的分析证明我们的 Lipschitz 循环单元相对于其他连续时间 RNN 对输入和参数扰动更具稳健性。
Jun, 2020
本研究探讨递归神经网络在自然语言处理中的应用情况,研究发现虽然这种网络可以实现递增的句法状态,但是并不总是像人类那样进行泛化,并且没有学习到合适的语法依赖配置。
Sep, 2018
本文提出了一种新的递归神经网络架构 NRU,该架构依赖于内存机制,不采用饱和激活函数和饱和门,以进一步减轻消失梯度问题,并在一系列合成和真实世界任务中证明了该模型是与其他架构相比,在具有和不具有长期依赖的所有任务中表现最佳的唯一模型。
Jan, 2019
本文提出了一种基于哈密顿系统的离散化的循环神经网络架构,解决长时依赖序列输入处理的梯度消失和爆炸问题,实验表明该方法在各种学习任务中提供了最先进的性能。
Mar, 2021
本文提出了一种新的神经网络架构,该架构学习一个特殊的方阵作为权重矩阵,使得隐藏层矩阵的特征值绝对值为 1,避免了权重矩阵导致的梯度问题;通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法,为学习长期依赖任务带来了先进的结果。
Nov, 2015
Universal Transformer 是一种并行自我关注循环序列模型,它将前馈序列模型(例如 Transformer)的并行性和全局感受野与递归的归纳偏差相结合,解决了在某些简单任务中标准 Transformer 失败的问题,并取得诸多算法和语言理解任务上优越的表现。
Jul, 2018
本文提出了基于 TopicRNN 的语言模型,它结合了 RNN 和潜在主题模型的优点,能够捕捉本地(句法)和全局(语义)依赖关系,并更好地预测单词。实证结果表明,TopicRNN 在单词预测方面优于现有的上下文 RNN 基线,并且可以作为无监督特征提取器用于情感分析。
Nov, 2016