Oct, 2023

通过解决嵌入式 FPGA 中 LSTM 单元的吞吐量瓶颈来增强能效

TL;DR为了处理物联网 (IoTs) 中的传感器数据,本研究提出了一种嵌入式深度学习的重要技术,即 LSTM 细胞的优化,旨在实现端设备上的高效能推断。通过以交通速度预测为案例研究,利用优化的 LSTM 细胞的简单 LSTM 模型在 extit {XC7S15} FPGA 芯片上实现了每秒 17534 次的推断,每次推断仅消耗 3.8 微焦耳的能量。与现有方法相比,其吞吐量至少提高了 5.4 倍,能量效率提高了 1.37 倍。