在 FPGA 中使用结构化矩阵的高效循环神经网络

Mar, 2018

在 FPGA 中使用结构化矩阵的高效循环神经网络

Efficient Recurrent Neural Networks using Structured Matrices in FPGAs

Zhe Li, Shuo Wang, Caiwen Ding, Qinru Qiu, Yanzhi Wang...

TL;DR本文基于块循环矩阵提出一种 FPGA 上实现高性能、高效能、准确率较高的 RNNs 的方法，其中包括模型压缩和加速等方面，与 ESE 相比，实现能效最大提升 35.7 倍。

Abstract

recurrent neural networks (rnns) are becoming increasingly important for time series-related applications which require efficient and real-time implementations. The recent pruning based work ESE suffers from degr

recurrent neural networks rnns block-circulant matrices fpga energy efficiency

发现论文，激发创造

E-RNN：FPGAs 中高效循环神经网络的设计优化

本文提出了一种基于块循环矩阵框架的高效 RNN（E-RNN）框架，用于 FPGA 实现自动语音识别（ASR），旨在提高性能 / 能量效率，保证精度。采用了交替方向乘法器（ADMM）技术和两个设计探索来提高块循环训练的准确性和引导块大小选择，并将 E-RNN 分解为两个阶段：确定 RNN 模型以降低计算和存储，并进行硬件实现。在实际的 FPGA 部署中，实验结果表明，相对于 ESE 的最大能量效率提高了 37.4 倍，相对于 C-LSTM 提高了 2 倍以上，但保持了相同的准确性水平。

Dec, 2018

C-LSTM：利用结构压缩技术在 FPGAs 上实现高效 LSTM

本文提出了一种基于块循环矩阵的压缩方案，用于改善长短时记忆网络的 FPGA 实现效率，并将该方法应用于一个名为 C-LSTM 的综合框架，其精度损失很小。

Mar, 2018

CirCNN：使用块循环权值矩阵加速和压缩深度神经网络

该论文提出 CirCNN，一种使用块循环矩阵表示权重和处理神经网络的基于 FFT 快速乘法的方法，能够从 O（n2）减少计算复杂度并降低存储复杂度，同时保持准确性，并在 FPGA、ASIC 和嵌入式处理器上实现出较高的能效和性能表现。

Aug, 2017

稀疏持续 RNN：在芯片上压缩大规模循环神经网络

通过模型修剪和 GPU 优化，我们为稀疏 RNN 设计了一种高效的实现，包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施，使得在隐藏层大小为 2304，批处理大小为 4，密度为 30% 时，我们的技术可实现超过 6 倍的加速效果，进一步，我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果，最后我们在附录中进行了机器翻译和语音识别任务的案例研究，将循环层加速了最多 3 倍。

Apr, 2018

FPGA 资源感知的实时神经网络结构剪枝

通过硬件为中心的修剪公式，我们在神经网络中减少了计算和存储的使用，并在实时推理中取得了显著的资源利用率改进。

Aug, 2023

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

基于 FPGA 的稀疏 LSTM 高效语音识别引擎

为提高语音识别模型的准确度、节约能源和降低总拥有成本，本文提出了一种基于负载均衡感知修剪方案对 Long Short-Term Memory 模型进行压缩，以及配合压缩模型的调度方案，并设计了一种能够直接在压缩模型上运行的硬件结构 Efficient Speech Recognition Engine。实验结果表明，该方法在能效、执行速度等方面优于 CPU 和 GPU 实现方式。

Dec, 2016

通过神经元选择对递归神经网络进行结构化剪枝

通过神经元选择的结构化剪枝方法，可以通过减小基本结构的尺寸来减少 RNN 的存储和计算成本，并利用 L0 范数优化，取得了语言建模等任务上的优异表现。

Jun, 2019

基于 FPGA 的循环神经网络硬件实现

本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA，实现了基于 Long-Short Term Memory（LSTM）的循环神经网络（RNN）硬件加速，并测试了该实现在字符级语言模型上的表现。结果表明，相较于 Zynq 7020 FPGA 中内嵌的 ARM CPU，该实现快了超过 $21$ 倍，并具有潜在的扩展到未来移动设备的应用前景。

Nov, 2015

基于 FPGA 的低功耗循环神经网络语音识别

本文基于神经网络，使用 FPGA 开发了一个实时语音识别系统，其中使用两个重复神经网络进行声学建模和语言建模，并采用统计单词级别语言模型提高识别准确性。同时，使用 N-best 搜索算法，实现了简单的 AM、character-level LM、word-level LM 三者的结合，从而显著提高其响应速度。

Sep, 2016