使用简单方法初始化修正线性单元的循环神经网络

Apr, 2015

使用简单方法初始化修正线性单元的循环神经网络

A Simple Way to Initialize Recurrent Networks of Rectified Linear Units

Quoc V. Le, Navdeep Jaitly, Geoffrey E. Hinton

TL;DR本文提出了用由修正线性单元组成的循环神经网络，并采用单位矩阵或其缩放版本来初始化循环权重矩阵来解决长期依赖性的问题，并在四个基准测试中证明了我们的解决方案与 LSTM 相当。

Abstract

Learning long term dependencies in recurrent networks is difficult due to vanishing and exploding gradients. To overcome this difficulty, researchers have developed sophisticated optimization techniques and network architectures. In this paper, we propose a simpler solution that use

recurrent neural networks rectified linear units optimization techniques identity matrix long-term dependencies

发现论文，激发创造

采用 ReLU 非线性激活函数优化循环神经网络性能

本文针对使用 ReLU 非线性函数的循环神经网络提出一种修改后的权重初始化策略，并通过三个长期时间结构遵循的玩具问题以及一个基准动作识别问题的实验结果证实了该策略的有效性。

Nov, 2015

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。

Dec, 2014

单幺正演化循环神经网络

本文提出了一种新的神经网络架构，该架构学习一个特殊的方阵作为权重矩阵，使得隐藏层矩阵的特征值绝对值为 1，避免了权重矩阵导致的梯度问题；通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法，为学习长期依赖任务带来了先进的结果。

Nov, 2015

一种用于序列建模的轻量级循环网络

本文介绍了一种称为 LRN 的轻量级循环神经网络，它使用输入和遗忘门来处理长时间的依赖性以及梯度消失和爆炸，并且可以作为替代现有循环单元的可落地的解决方案，该方法将计算量从循环中转移至外部，并与自我注意力网络紧密连接。通过六项自然语言处理任务的广泛实验证明，使用 LRN 能够获得最高的运行效率，而且模型性能几乎没有损失。

May, 2019

循环神经网络优化的进展

本文探讨了相关的优化问题，尝试使用梯度削减，跨越更长的时间范围，强化动量技术，使用更强大的输出概率模型，以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面，以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。

Dec, 2012

适用于循环神经网络的广义张量模型

本文研究了使用不同非线性激活函数的循环神经网络（RNNs）的理论效率，表明它们也具有普适性和深度效率的特性，并通过计算实验证实了这一理论结果。

Jan, 2019

学习紧凑循环神经网络

本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络（LSTM）的机制，探究了在不损失性能的情况下完善紧凑结构的可能性，并且发现在底层使用结构矩阵，在顶层使用共享低秩因子的混合策略特别有效，在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%，仅仅增加了 0.3% 的误差率。

Apr, 2016

循环神经网络和长短时记忆网络：教程和调研

本研究论文介绍了递归神经网络 (RNN)、长短期记忆网络 (LSTM) 及其变体，在训练过程中解决长序列中的梯度消失 / 爆炸问题，并详细介绍了 LSTM 中的门控单元，双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。

Apr, 2023

循环正交网络和长记忆任务

本文通过分析两个合成数据集来研究 RNNs 在处理长期依赖问题时的信息存储方法，并阐明了几种不同类型信息在 RNNs 中如何存储，这同时解释了最近采用的指定初始化或转移矩阵约束的方法的成功。

Feb, 2016

Independently Recurrent Neural Network (IndRNN): 构建更长更深的循环神经网络

本文介绍了一种称为 Independently Recurrent Neural Network 的新型递归神经网络，其具有分层连接、神经元不相互依赖以及可适用于非饱和激活函数等特点，实验结果表明该网络较传统的递归神经网络、长短时记忆网络在多种任务上表现更好。

Mar, 2018