使用简单方法初始化修正线性单元的循环神经网络
本文针对使用 ReLU 非线性函数的循环神经网络提出一种修改后的权重初始化策略,并通过三个长期时间结构遵循的玩具问题以及一个基准动作识别问题的实验结果证实了该策略的有效性。
Nov, 2015
本文提出了一种新的神经网络架构,该架构学习一个特殊的方阵作为权重矩阵,使得隐藏层矩阵的特征值绝对值为 1,避免了权重矩阵导致的梯度问题;通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法,为学习长期依赖任务带来了先进的结果。
Nov, 2015
本文介绍了一种称为 LRN 的轻量级循环神经网络,它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸,并且可以作为替代现有循环单元的可落地的解决方案,该方法将计算量从循环中转移至外部,并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明,使用 LRN 能够获得最高的运行效率,而且模型性能几乎没有损失。
May, 2019
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络(LSTM)的机制,探究了在不损失性能的情况下完善紧凑结构的可能性,并且发现在底层使用结构矩阵,在顶层使用共享低秩因子的混合策略特别有效,在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%,仅仅增加了 0.3% 的误差率。
Apr, 2016
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM) 及其变体,在训练过程中解决长序列中的梯度消失 / 爆炸问题,并详细介绍了 LSTM 中的门控单元,双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。
Apr, 2023
本文通过分析两个合成数据集来研究 RNNs 在处理长期依赖问题时的信息存储方法,并阐明了几种不同类型信息在 RNNs 中如何存储,这同时解释了最近采用的指定初始化或转移矩阵约束的方法的成功。
Feb, 2016
本文介绍了一种称为 Independently Recurrent Neural Network 的新型递归神经网络,其具有分层连接、神经元不相互依赖以及可适用于非饱和激活函数等特点,实验结果表明该网络较传统的递归神经网络、长短时记忆网络在多种任务上表现更好。
Mar, 2018