采用 ReLU 非线性激活函数优化循环神经网络性能

ICLRNov, 2015

采用 ReLU 非线性激活函数优化循环神经网络性能

Improving performance of recurrent neural network with relu nonlinearity

Sachin S. Talathi, Aniket Vartak

TL;DR本文针对使用 ReLU 非线性函数的循环神经网络提出一种修改后的权重初始化策略，并通过三个长期时间结构遵循的玩具问题以及一个基准动作识别问题的实验结果证实了该策略的有效性。

Abstract

In recent years significant progress has been made in successfully training recurrent neural networks (RNNs) on sequence learning problems involving long range temporal dependencies. The progress has been made on three fronts: (a) Algorithmic improvements involving sophisticated optimi

recurrent neural networks weight initialization long range temporal dependencies rectified linear unit action recognition

发现论文，激发创造

使用简单方法初始化修正线性单元的循环神经网络

本文提出了用由修正线性单元组成的循环神经网络，并采用单位矩阵或其缩放版本来初始化循环权重矩阵来解决长期依赖性的问题，并在四个基准测试中证明了我们的解决方案与 LSTM 相当。

Apr, 2015

深且窄的前馈神经网络的改进权重初始化

通过引入新的权重初始化方法，本论文证明了所提出的初始权重矩阵的特性，展示了这些特性如何促进信号向量的有效传播，并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。

Nov, 2023

深度神经网络中的权重初始化

本文阐述了权重初始化对神经网络收敛的关键性，通过研究非线性激活函数的影响，提出了一种通用的权重初始化策略，并解释了为什么 Xavier 初始化在 Rectified Linear Unit 激活函数下效果不佳。

Apr, 2017

适用于循环神经网络的广义张量模型

本文研究了使用不同非线性激活函数的循环神经网络（RNNs）的理论效率，表明它们也具有普适性和深度效率的特性，并通过计算实验证实了这一理论结果。

Jan, 2019

使用 ReLU 激活函数的循环神经网络的路径归一化优化

研究了循环神经网络参数空间的几何形状，并开发了一种适应于该几何形状的路径 - SGD 优化方法，它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上，我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性，与使用 SGD 训练的 RNN 相比，即使使用各种最近推荐的初始化方案。

May, 2016

使用顺序非标准动力学改善循环神经网络的记忆能力

探讨使用非正常的重复神经网络（RNNs）以解决梯度 “消失 / 爆炸” 的问题并提高 “信噪比”。研究显示，具有非正常的重复连接矩阵的非正常 RNN 可以在序列处理任务中胜过其正交对应物。

May, 2019

单幺正演化循环神经网络

本文提出了一种新的神经网络架构，该架构学习一个特殊的方阵作为权重矩阵，使得隐藏层矩阵的特征值绝对值为 1，避免了权重矩阵导致的梯度问题；通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法，为学习长期依赖任务带来了先进的结果。

Nov, 2015

神经网络嵌入优化的 ReLU 激活函数线性化：最佳日前能源调度

本文研究了针对常用的修正线性单元（ReLU）激活函数的线性化方法，为将神经网络模型与 ReLU 激活函数结合的优化问题提供了有效解决工具。

Oct, 2023

线性 RNN 的隐性偏差

研究说明传统的循环神经网络（RNNs）在需要长期记忆的任务上表现不佳的原因是因为其随机初始化后的转移矩阵方差造成了梯度消失和梯度爆炸的问题，而使用线性 RNNs 代替时会出现更短的记忆偏差，这一理论经过人工数据和真实数据的验证。

Jan, 2021

ReLU 和加法门控递归神经网络

通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数，该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制，从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时，捕捉到序列数据的长期依赖关系，并且在 CPU 上减少了一半的执行时间，在加密环境下减少了三分之一的执行时间，实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比，能够实现可比较的准确性。同时，该机制还能避免加密变量的乘法操作，从而支持具有保护隐私的同态加密人工智能应用，并能在（非加密）明文应用中支持量化操作，潜在地带来显著的性能提升。

Aug, 2023