基于减法器的 CNN 推断加速器
本文介绍了一种用于二进制权重卷积神经网络的加速器,能够在 1.2V 下实现 1510 GOp/s 的运算,且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。
Jun, 2016
本文提出了一种基于表查找的 CNN 乘法运算替换方法,可以显著减少在嵌入式设备上进行推理时的能耗,并且适用于现有 CNN 操作机制,能够显著提高嵌入式系统中小型模型的资源利用和深度推理的延迟。
May, 2023
使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络(AdderNet),可以消耗更少的资源,并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效,可以用于未来的高性能和能效的人工智能应用中。
Jan, 2021
该论文通过使用 AdderNets,将深度神经网络中的大量乘法转化为更便宜的加法来降低计算成本。通过特殊的反向传播方法和自适应学习率策略,在卷积层中消除任何乘法,以实现更好的性能优化。使用 ResNet-50 在 ImageNet 数据集上,无需进行任何乘法运算就能达到 74.9%的 Top-1 精度和 91.7%的 Top-5 精度。
Dec, 2019
介绍了 ShiftCNN,这是一种基于 2 的 n 次幂权重表示的广义低精度卷积神经网络(CNN)推理架构,可应用于任何具有相对较小权重代码本的 CNN 架构,并且减少至少两个数量级的乘积运算,可实现的加速器有 FPGAs 或 ASICs。使用提议的量化算法,ImageNet 的广泛评估表明可以将最先进的 CNN 转换为 ShiftCNN 并且不到 1% 的准确率下降。
Jun, 2017
提出使用卷积位移和完全连接位移加速模型部署到边缘计算平台。在使用 DeepShift 模型转换和训练的预先训练的 ResNet18,ResNet50,VGG16 和 GoogleNet 模型中,可以获得接近甚至更高的准确率,并且 GPU 内核可以减少 25% 的延迟时间,具有较好的应用前景。
May, 2019
研究二值化训练和量化方法在神经网络训练中的应用,通过在 MNIST、CIFAR10、SVHN 三个数据集上的实验证明,这种方法不仅不会降低分类性能,反而可以实现比标准随机梯度下降训练更好的性能
Oct, 2015
该论文介绍了一种名为 Sparse CNN 的卷积神经网络加速器体系结构,它可以通过利用 CNN 训练期间的网络修剪所产生的零值权重以及推理期间常见的 ReLU 算子产生的零值激活来提高性能和能源效率,从而减少数据传输和存储要求,并通过一种新型数据流方式有效地传递权重和激活值到乘法器阵列。该加速器在现代神经网络上可以将性能和能源效率分别提升 2.7 倍和 2.3 倍。
May, 2017
该研究提出了一种流式硬件加速器,通过避免不必要的数据移动和独特的滤波器分解技术,优化了能源效率,并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能,进而实现了吞吐量的提高和较高的能效比,可在智能物联网设备中应用。
Jul, 2017
研究表明,使用极端量化可以将 CNN 的权重和中间特征图二值化,从而节省内存并将能量密集型的乘积操作转换为 XNOR 和 popcount 操作,我们提出的二值 CNN 加速器 XNORBIN 在低功率嵌入式系统中具有紧密耦合的计算和内存,能够实现 95 TOp/s/W 的能量效率和 2.0 TOp/s/MGE 的面积效率。
Mar, 2018