在 FPGA 中使用结构化矩阵的高效循环神经网络
本文提出了一种基于块循环矩阵框架的高效 RNN(E-RNN)框架,用于 FPGA 实现自动语音识别(ASR),旨在提高性能 / 能量效率,保证精度。采用了交替方向乘法器(ADMM)技术和两个设计探索来提高块循环训练的准确性和引导块大小选择,并将 E-RNN 分解为两个阶段:确定 RNN 模型以降低计算和存储,并进行硬件实现。在实际的 FPGA 部署中,实验结果表明,相对于 ESE 的最大能量效率提高了 37.4 倍,相对于 C-LSTM 提高了 2 倍以上,但保持了相同的准确性水平。
Dec, 2018
本文提出了一种基于块循环矩阵的压缩方案,用于改善长短时记忆网络的 FPGA 实现效率,并将该方法应用于一个名为 C-LSTM 的综合框架,其精度损失很小。
Mar, 2018
该论文提出 CirCNN,一种使用块循环矩阵表示权重和处理神经网络的基于 FFT 快速乘法的方法,能够从 O(n2)减少计算复杂度并降低存储复杂度,同时保持准确性,并在 FPGA、ASIC 和嵌入式处理器上实现出较高的能效和性能表现。
Aug, 2017
通过模型修剪和 GPU 优化,我们为稀疏 RNN 设计了一种高效的实现,包括 Lamport 时间戳、宽存储器负载和银行感知权重布局等优化措施,使得在隐藏层大小为 2304,批处理大小为 4,密度为 30% 时,我们的技术可实现超过 6 倍的加速效果,进一步,我们的技术使得大于 5 倍的模型大小可以适应于 GPU 以达到 2 倍的加速效果,最后我们在附录中进行了机器翻译和语音识别任务的案例研究,将循环层加速了最多 3 倍。
Apr, 2018
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
为提高语音识别模型的准确度、节约能源和降低总拥有成本,本文提出了一种基于负载均衡感知修剪方案对 Long Short-Term Memory 模型进行压缩,以及配合压缩模型的调度方案,并设计了一种能够直接在压缩模型上运行的硬件结构 Efficient Speech Recognition Engine。实验结果表明,该方法在能效、执行速度等方面优于 CPU 和 GPU 实现方式。
Dec, 2016
通过神经元选择的结构化剪枝方法,可以通过减小基本结构的尺寸来减少 RNN 的存储和计算成本,并利用 L0 范数优化,取得了语言建模等任务上的优异表现。
Jun, 2019
本文利用 Xilinx 公司的可编程逻辑器件 Zynq 7020 FPGA,实现了基于 Long-Short Term Memory(LSTM)的循环神经网络(RNN)硬件加速,并测试了该实现在字符级语言模型上的表现。结果表明,相较于 Zynq 7020 FPGA 中内嵌的 ARM CPU,该实现快了超过 $21$ 倍,并具有潜在的扩展到未来移动设备的应用前景。
Nov, 2015
本文基于神经网络,使用 FPGA 开发了一个实时语音识别系统,其中使用两个重复神经网络进行声学建模和语言建模,并采用统计单词级别语言模型提高识别准确性。同时,使用 N-best 搜索算法,实现了简单的 AM、character-level LM、word-level LM 三者的结合,从而显著提高其响应速度。
Sep, 2016