AdderNet 及其极简硬件设计用于能效人工智能
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在1.2V下实现1510 GOp/s的运算,且在0.6V下消耗895 μW的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的DNN算法-硬件协同优化框架,并在硬件部分采用高效的FPGA实现,实验表明与IBM TrueNorth处理器和参考的FPGA实现相比,该框架至少实现了152倍的加速和71倍的能效增益。
Feb, 2018
研究表明,使用极端量化可以将CNN的权重和中间特征图二值化,从而节省内存并将能量密集型的乘积操作转换为XNOR和popcount操作,我们提出的二值CNN加速器XNORBIN在低功率嵌入式系统中具有紧密耦合的计算和内存,能够实现95 TOp/s/W的能量效率和2.0 TOp/s/MGE的面积效率。
Mar, 2018
在嵌入式FPGA中,通过混合量化方案加速极低比特宽度神经网络(ELB-NN),提出了一种设计流程,既涵盖了网络的训练,也包含了基于FPGA的网络部署,从而方便设计者探索设计空间,简化网络精度和计算效率之间的权衡,巧妙地在资源和功耗限制条件下提供边缘设备中的网络加速器,实现高达10.3 TOPS的高性能,每瓦分类达到325.3张图像。在文献中,我们比较了GPU或其他FPGA实现,结果显示出目前最省能的解决方案。
Jul, 2018
本文提出了一种算法-硬件协同设计的方法,开发了一种名为Synetgy的ConvNet加速器和一种新颖的ConvNet模型DiracDeltaNet,可以高效地在FPGA上运行,得到了更高的准确率和更快的推理速度。
Nov, 2018
通过设计神经网络拓扑结构来直接映射高效FPGA实现的一种新方法。其中,硬件成本与神经元扇入呈指数级增长,通过使用稀疏和低比特激励量化来限制神经元扇入及减小逻辑深度和低LUT成本,可以实现具有高速低延时和高吞吐量的电路。应用于高能物理和网络入侵检测等任务,具有竞争性的准确性,每秒推断量可达数亿。
Apr, 2020
本文提出了针对单张图像超分辨率问题的AdderNet神经网络,通过插入shortcut进行identity mapping增强和引入可学习能力的power activation进行细节调整,具有可比较的性能和可视化效果,同时能够使能耗减少约2倍。
Sep, 2020
该论文研究了如何使用 Winograd 算法优化 AdderNet 的硬件开销,提出了一种新的变换矩阵和 l2-to-l1 训练策略来增强输出特征的表征能力,从而进一步降低能耗,同时不影响精度。
May, 2021
本文提出了一种新型IMC加速器FAT,其中使用Sparse Addition Control Unit来利用TWNs的稀疏性,使用快速加法方案来避免传输和存储时间开销,并使用Combined-Stationary数据映射来提高内存列中的并行性,模拟结果表明,FAT相比于现有的IMC加速器ParaPIM可以实现2.00X的加速,1.22X的功率效率和1.22X的面积效率,对于80%平均稀疏度的网络,FAT可以实现10.02X的加速和12.19X的能量效率。
Jan, 2022
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two( PoT ) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022