关于循环神经网络的计算能力

Jun, 2019

On the Computational Power of RNNs

Samuel A. Korsky, Robert C. Berwick

TL;DR证明有限精度下具有 ReLU 激活函数的 RNN 和 GRU 等神经网络具有等价于确定性有限自动机 (DFA) 的计算能力，如果允许任意精度，则具有至少与下推自动机 (PDA) 相同的计算能力，如果同时允许无限精度，无限边权和非线性输出激活函数，则 GRU 具有至少与下推自动机相同的计算能力。

Abstract

Recent neural network architectures such as the basic recurrent neural network (RNN) and gated recurrent unit (GRU) have gained prominence as end-to-end learning architectures for →

neural network recurrent neural network gated recurrent unit natural language processing computation

发现论文，激发创造

有限精度 RNN 在语言识别中的实际计算能力

本文研究了有限精度的 RNNs，证明 LSTM 和 Elman-RNN with ReLU activation 比 RNN with a squashing activation 和 GRU 更加强大，可以实现计数行为，并且实验证明了 LSTM 学习了有效地使用计数机制。

May, 2018

ReLU 和加法门控递归神经网络

通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数，该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制，从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时，捕捉到序列数据的长期依赖关系，并且在 CPU 上减少了一半的执行时间，在加密环境下减少了三分之一的执行时间，实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比，能够实现可比较的准确性。同时，该机制还能避免加密变量的乘法操作，从而支持具有保护隐私的同态加密人工智能应用，并能在（非加密）明文应用中支持量化操作，潜在地带来显著的性能提升。

Aug, 2023

有限数值精度的循环神经网络

本研究着眼于 RNN 模型的计算资源需求问题，提出了一种通过降低权重与偏置数值精度的方法来优化模型计算的解决方案，并在两种主要的 RNN 模型及三个数据集上进行了实验，结果表明使用随机和确定性三值化、pow2 - 三值化和指数量化方法均能生成低精度的 RNN 模型，并在某些数据集上甚至能获得更高的准确率，从而为开发特殊低功耗硬件的 RNN 训练提供更加高效的实现途径。

Nov, 2016

循环神经网络的有效量化方法

本文提出了一种有效的量化方法，可用于将循环神经网络（包括 LSTM，GRU 和 ConvLSTM）部署在 FPGA 和移动平台上，同时在 IMDB 情感分析和移动 MNIST 视频帧预测等数据集上取得了有希望的成果。

Feb, 2018

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

通过修订门循环单元来提升语音识别

本文提出了一种简化的 Gated Recurrent Units 架构，用于语音识别。通过去除重置门和引入 ReLU 激活函数，我们的实现在训练时间上提高了 30％以上，并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。

Sep, 2017

递归神经网络作为加权语言识别器

本文研究了作为识别加权语言的形式模型的简单循环神经网络（RNN）的各种问题的计算复杂性，其中我们专注于单层、ReLU - 激活、有理权重的 RNN，其使用广泛应用于自然语言处理应用程序。本文表明，这种 RNN 的大多数问题都是不可判定的，包括一致性、等价性、最小化和确定最高加权字符串。但对于一致性 RNN，最后一个问题变成可判定的，但其解决方案的长度可能超过所有可计算的界限。如果该字符串长度也被限制在多项式长度，那么该问题就变成了 NP - 完全的并且是 APX - 难的，因此本文表明了在这些 RNN 的实际应用程序中，逼近算法是必要的。

Nov, 2017

E-RNN：FPGAs 中高效循环神经网络的设计优化

本文提出了一种基于块循环矩阵框架的高效 RNN（E-RNN）框架，用于 FPGA 实现自动语音识别（ASR），旨在提高性能 / 能量效率，保证精度。采用了交替方向乘法器（ADMM）技术和两个设计探索来提高块循环训练的准确性和引导块大小选择，并将 E-RNN 分解为两个阶段：确定 RNN 模型以降低计算和存储，并进行硬件实现。在实际的 FPGA 部署中，实验结果表明，相对于 ESE 的最大能量效率提高了 37.4 倍，相对于 C-LSTM 提高了 2 倍以上，但保持了相同的准确性水平。

Dec, 2018

循环神经语言模型作为概率有限状态自动机

本文研究了 RNN 语言模型对概率分布的表示能力，发现简单的 RNN 等效于概率有限状态自动机，能够表示有限状态模型可表达的概率分布的严格子集，同时研究了用 RNN 表示确定性有限状态语言模型的空间复杂度。这些结果对于了解 RNN 语言模型的能力和限制具有重要意义。

Oct, 2023

一种无混沌的循环神经网络

本文介绍了一种非常简单的门控循环神经网络，其在基于单词的语言建模任务上实现了与 LSTM 和 GRU 等著名门控架构相媲美的性能且证明了该模型具有简单、可预测和非混沌的动力学，这与传统的门控架构形成了鲜明对比。

Dec, 2016