基于减法器的 CNN 推断加速器

Oct, 2023

Subtractor-Based CNN Inference Accelerator

Victor Gao, Issam Hammad, Kamal El-Sankary, Jason Gu

TL;DR该研究提出了一种利用减法器提高 CNN 推理加速器性能的新方法，通过排序、分组和舍入权重来创建组合，从而可以在推理期间将一个乘法和加法运算替换为一个减法运算，从而降低功耗和面积，并通过增加或减少减法器的使用来控制性能增益和准确性损失的权衡。利用 MNIST 数据集和 LeNet-5，采用舍入大小为 0.05 的设计可以实现 32.03％的功耗节省和 24.59％的面积减少，仅以 0.1％的准确性损失为代价。

Abstract

This paper presents a novel method to boost the performance of CNN inference accelerators by utilizing subtractors. The proposed CNN preprocessing accelerator relies on sorting, grouping, and rounding the weights to create combinations that allow for the replacement of one

cnn inference accelerators subtractors preprocessing accelerator multiplication operation power and area

发现论文，激发创造

YodaNN: 超低功耗二进制卷积神经网络加速架构

本文介绍了一种用于二进制权重卷积神经网络的加速器，能够在 1.2V 下实现 1510 GOp/s 的运算，且在 0.6V 下消耗 895 μW 的功率。这个加速器比先前的最新技术在能量和面积效率方面都有很大的优势。

Jun, 2016

DietCNN: 量化卷积神经网络的无乘法推理

本文提出了一种基于表查找的 CNN 乘法运算替换方法，可以显著减少在嵌入式设备上进行推理时的能耗，并且适用于现有 CNN 操作机制，能够显著提高嵌入式系统中小型模型的资源利用和深度推理的延迟。

May, 2023

AdderNet 及其极简硬件设计用于能效人工智能

使用加法核、低比特量化算法以及特定和通用硬件加速器设计一种高效的、性能更好的卷积神经网络（AdderNet），可以消耗更少的资源，并且比传统的卷积神经网络、基于忆阻器网络、XNOR-Net 和基于移位核的网络有更高的性能和能效，可以用于未来的高性能和能效的人工智能应用中。

Jan, 2021

AdderNet：深度学习中真的需要乘法吗？

该论文通过使用 AdderNets，将深度神经网络中的大量乘法转化为更便宜的加法来降低计算成本。通过特殊的反向传播方法和自适应学习率策略，在卷积层中消除任何乘法，以实现更好的性能优化。使用 ResNet-50 在 ImageNet 数据集上，无需进行任何乘法运算就能达到 74.9％的 Top-1 精度和 91.7％的 Top-5 精度。

Dec, 2019

ShiftCNN: 普遍的低精度卷积神经网络推理架构

介绍了 ShiftCNN，这是一种基于 2 的 n 次幂权重表示的广义低精度卷积神经网络（CNN）推理架构，可应用于任何具有相对较小权重代码本的 CNN 架构，并且减少至少两个数量级的乘积运算，可实现的加速器有 FPGAs 或 ASICs。使用提议的量化算法，ImageNet 的广泛评估表明可以将最先进的 CNN 转换为 ShiftCNN 并且不到 1% 的准确率下降。

Jun, 2017

DeepShift：面向无乘法神经网络

提出使用卷积位移和完全连接位移加速模型部署到边缘计算平台。在使用 DeepShift 模型转换和训练的预先训练的 ResNet18，ResNet50，VGG16 和 GoogleNet 模型中，可以获得接近甚至更高的准确率，并且 GPU 内核可以减少 25% 的延迟时间，具有较好的应用前景。

May, 2019

少乘法的神经网络

研究二值化训练和量化方法在神经网络训练中的应用，通过在 MNIST、CIFAR10、SVHN 三个数据集上的实验证明，这种方法不仅不会降低分类性能，反而可以实现比标准随机梯度下降训练更好的性能

Oct, 2015

SCNN：压缩稀疏卷积神经网络加速器

该论文介绍了一种名为 Sparse CNN 的卷积神经网络加速器体系结构，它可以通过利用 CNN 训练期间的网络修剪所产生的零值权重以及推理期间常见的 ReLU 算子产生的零值激活来提高性能和能源效率，从而减少数据传输和存储要求，并通过一种新型数据流方式有效地传递权重和激活值到乘法器阵列。该加速器在现代神经网络上可以将性能和能源效率分别提升 2.7 倍和 2.3 倍。

May, 2017

用于物联网的可重构流式深度卷积神经网络加速器

该研究提出了一种流式硬件加速器，通过避免不必要的数据移动和独特的滤波器分解技术，优化了能源效率，并支持任意卷积窗口大小和使用并行池化单元计算最大池化功能，进而实现了吞吐量的提高和较高的能效比，可在智能物联网设备中应用。

Jul, 2017

XNORBIN：一款用于二值卷积神经网络的 95 TOp/s/W 硬件加速器

研究表明，使用极端量化可以将 CNN 的权重和中间特征图二值化，从而节省内存并将能量密集型的乘积操作转换为 XNOR 和 popcount 操作，我们提出的二值 CNN 加速器 XNORBIN 在低功率嵌入式系统中具有紧密耦合的计算和内存，能够实现 95 TOp/s/W 的能量效率和 2.0 TOp/s/MGE 的面积效率。

Mar, 2018