稀疏持续 RNN：在芯片上压缩大规模循环神经网络

ICLRApr, 2018

稀疏持续 RNN：在芯片上压缩大规模循环神经网络

Sparse Persistent RNNs: Squeezing Large Recurrent Networks On-Chip

Feiwen Zhu, Jeff Pool, Michael Andersch, Jeremy Appleyard, Fung Xie

TL;DR通过模型修剪和 GPU 优化，我们为稀疏 RNN 设计了一种高效的实现，包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施，使得在隐藏层大小为 2304，批处理大小为 4，密度为 30% 时，我们的技术可实现超过 6 倍的加速效果，进一步，我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果，最后我们在附录中进行了机器翻译和语音识别任务的案例研究，将循环层加速了最多 3 倍。

Abstract

recurrent neural networks (RNNs) are powerful tools for solving sequence-based problems, but their efficacy and execution time are dependent on the size of the network. Following recent work in simplifying these networks with →

recurrent neural networks model pruning gpu optimization lamport timestamps speech recognition

发现论文，激发创造

探索循环神经网络中的稀疏性

该论文提出了一种通过初始训练过程中修剪权重来减少模型参数的技术，以便在减小了模型大小的同时，保留了准确度并显著提高了推理时间，在基准测试中使用该技术可以将模型大小降低 90%，速度提高 2 倍至 7 倍

Apr, 2017

基块稀疏循环神经网络

研究使用 “修剪” 和 “组稀疏化正则化” 这两种方法来诱导 RNN 网络中的块稀疏性，形成 80% 到 90% 不等的稀疏度；该技术能够消除与数据存储和不规则内存访问相关的额外开销，同时提高硬件效率和降低参数总数。

Nov, 2017

学习紧凑循环神经网络

本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络（LSTM）的机制，探究了在不损失性能的情况下完善紧凑结构的可能性，并且发现在底层使用结构矩阵，在顶层使用共享低秩因子的混合策略特别有效，在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%，仅仅增加了 0.3% 的误差率。

Apr, 2016

E-RNN：FPGAs 中高效循环神经网络的设计优化

本文提出了一种基于块循环矩阵框架的高效 RNN（E-RNN）框架，用于 FPGA 实现自动语音识别（ASR），旨在提高性能 / 能量效率，保证精度。采用了交替方向乘法器（ADMM）技术和两个设计探索来提高块循环训练的准确性和引导块大小选择，并将 E-RNN 分解为两个阶段：确定 RNN 模型以降低计算和存储，并进行硬件实现。在实际的 FPGA 部署中，实验结果表明，相对于 ESE 的最大能量效率提高了 37.4 倍，相对于 C-LSTM 提高了 2 倍以上，但保持了相同的准确性水平。

Dec, 2018

在 FPGA 中使用结构化矩阵的高效循环神经网络

本文基于块循环矩阵提出一种 FPGA 上实现高性能、高效能、准确率较高的 RNNs 的方法，其中包括模型压缩和加速等方面，与 ESE 相比，实现能效最大提升 35.7 倍。

Mar, 2018

高效神经音频合成

本文针对顺序模型中高效采样的问题，提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术，可以在保持高输出质量的同时提高采样速度。

Feb, 2018

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。

Feb, 2019

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019

通过活动稀疏性和时间上的稀疏反向传播实现高效的循环神经网络结构

通过实现神经元活动的动态稀疏化，提出了一种基于门控循环单元（GRU）并适用于新颖的节能神经形态硬件的递归神经网络（RNN）的通信稀疏离散化解决方案。该模型在不影响任务性能的前提下实现了高效，与现有最先进的循环神经网络模型在语言建模等实际任务中表现同样出色。

Jun, 2022

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017