基于二次幂量化的神经网络能效硬件加速
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在1.2V下实现1510 GOp/s的运算,且在0.6V下消耗895 μW的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的DNN算法-硬件协同优化框架,并在硬件部分采用高效的FPGA实现,实验表明与IBM TrueNorth处理器和参考的FPGA实现相比,该框架至少实现了152倍的加速和71倍的能效增益。
Feb, 2018
该论文研究了基于FPGA的深度神经网络模型压缩方法——不同行采用不同的量化方案以充分利用FPGA中LUT和DSP的资源,提出了适用于高斯分布和均匀分布的两种量化方案,并提出了混合方案以保持或提高精度。
Dec, 2020
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net和基于移位核的网络有更高的性能和能效,可以用于未来的高性能和能效的人工智能应用中。
Jan, 2021
本文提出了一种新型IMC加速器FAT,其中使用Sparse Addition Control Unit来利用TWNs的稀疏性,使用快速加法方案来避免传输和存储时间开销,并使用Combined-Stationary数据映射来提高内存列中的并行性,模拟结果表明,FAT相比于现有的IMC加速器ParaPIM可以实现2.00X的加速,1.22X的功率效率和1.22X的面积效率,对于80%平均稀疏度的网络,FAT可以实现10.02X的加速和12.19X的能量效率。
Jan, 2022
本文提出了一种自适应分层比例缩放的位编码量化(ALS-POTQ)方法和无乘积MAC的方法(MF-MAC),可以消除线性层中所有FP32乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性,从而获得比现有方法更高的能源效率和准确性。
Feb, 2023
云处理、边缘处理、内存计算、网络压缩技术、量化神经网络是本研究的主要关键词。本文提供了内存计算量化神经网络的全面回顾,并将软件量化方法与内存计算硬件实现相结合。此外,还提供了挑战、设计要求、建议以及基于内存计算量化神经网络的硬件发展路线图。
Jul, 2023
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低39%,平均精度损失为1.7%。
Dec, 2023
本研究解决了在资源受限设备上运行CNN时,能耗与推断时间之间的矛盾。提出了一种适用于FPGA设备的通用硬件架构,利用专门设计的剪枝技术显著提高推断速度。实验表明,该硬件感知的剪枝算法相比于标准剪枝算法,推断时间提高了45%。
Aug, 2024
本研究解决了边缘设备上二次幂(PoT)量化的高效性不足问题。我们设计了基于移位的处理元件(shift-PE)和一个新的开源加速器PoTAcc,旨在提高PoT量化深度神经网络(DNNs)的性能。实验结果显示,PoTAcc在资源受限的边缘设备上相较于传统乘法加速器实现了1.23倍的速度提升和1.24倍的能量降低。
Sep, 2024