YodaNN: 超低功耗二进制卷积神经网络加速架构
研究表明,使用极端量化可以将 CNN 的权重和中间特征图二值化,从而节省内存并将能量密集型的乘积操作转换为 XNOR 和 popcount 操作,我们提出的二值 CNN 加速器 XNORBIN 在低功率嵌入式系统中具有紧密耦合的计算和内存,能够实现 95 TOp/s/W 的能量效率和 2.0 TOp/s/MGE 的面积效率。
Mar, 2018
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022
该研究提出了一种流式硬件加速器,通过避免不必要的数据移动和独特的滤波器分解技术,优化了能源效率,并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能,进而实现了吞吐量的提高和较高的能效比,可在智能物联网设备中应用。
Jul, 2017
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效,可以用于未来的高性能和能效的人工智能应用中。
Jan, 2021
该论文介绍了一种用于实现基于卷积神经网络的计算机视觉应用的高效领域特定架构(DSA),并利用 DSA 设计了一个能够高效地支持移动设备和嵌入式系统的加速器,可用于实时图像分类和场景识别等实际应用。
Apr, 2018
该研究实现了一种低功耗、可精确可扩展的卷积神经网络处理器,其充分利用卷积的稀疏性和动态精度可扩展性,实现了供应和能量缩放,能够在保持吞吐量的情况下最小化能量消耗,同时其实现的效率从 0.3-2.6 实际 TOPS/W,超越了同类产品达到 3.9 倍的能效。
Jun, 2016
该研究提出了一种利用减法器提高 CNN 推理加速器性能的新方法,通过排序、分组和舍入权重来创建组合,从而可以在推理期间将一个乘法和加法运算替换为一个减法运算,从而降低功耗和面积,并通过增加或减少减法器的使用来控制性能增益和准确性损失的权衡。利用 MNIST 数据集和 LeNet-5,采用舍入大小为 0.05 的设计可以实现 32.03%的功耗节省和 24.59%的面积减少,仅以 0.1%的准确性损失为代价。
Oct, 2023
本文引入了一种新颖的方案来训练二值卷积神经网络,使用多个二元权重基的线性组合逼近完全精度权重,并采用多个二元激活来减轻信息丢失的问题,最终实现了一个二值卷积神经网络(ABC-Net),能够在适当的二元权重和激活函数基础上,取得与全精度神经网络相当的预测准确性。
Nov, 2017
该论文介绍了一种名为 Sparse CNN 的卷积神经网络加速器体系结构,它可以通过利用 CNN 训练期间的网络修剪所产生的零值权重以及推理期间常见的 ReLU 算子产生的零值激活来提高性能和能源效率,从而减少数据传输和存储要求,并通过一种新型数据流方式有效地传递权重和激活值到乘法器阵列。该加速器在现代神经网络上可以将性能和能源效率分别提升 2.7 倍和 2.3 倍。
May, 2017