比特实用的深度神经网络计算

Oct, 2016

Bit-pragmatic Deep Neural Network Computing

J. Albericio, P. Judd, A. Delmás, S. Sharify, A. Moshovos

TL;DR提出一种新的架构 Pragmatic (PRA)，它利用卷积层中无效计算的源头，通过混合位并行乘数 / 位串行乘数处理单元和对乘数表示的明确性（去除了产生为零项的乘积）来提高深度神经网络（DNNs）的执行效率和能量效率。

Abstract

We quantify a source of ineffectual computations when processing the multiplications of the convolutional layers in deep neural networks (DNNs) and propose Pragmatic (PRA), an architecture that exploits it improv

deep neural networks convolutional layers hybrid bit-parallel multplicand/bit-serial multiplicator processing units execution efficiency energy efficiency

发现论文，激发创造

基于二次幂量化的神经网络能效硬件加速

通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算，以及基于对数量化的新型剪枝方法，本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two (PoT) 权重，实现了至少 $1.4x$ 的能效提升。

Sep, 2022

产品量化及其硬件加速

本文研究了在 DNNs 中将传统的 MAC 操作替换为使用 product quantization 时的计算和内存占用情况，采用不同的 PQ 设置和训练方法，设计了第一个定制的硬件加速器来评估运行 PQ 模型的速度和效率，发现与高度优化的传统 DNN 加速器相比，PQ 配置能够使 ResNet20 的面积性能提高 40% 至 104%，且硬件性能优于近期的 PQ 解决方案 4 倍，只有 0.6% 的精度降低，为 PQ 模型的更广泛采用铺平了道路。

May, 2023

PowerPruning: 为高效神经网络加速选择权重和激活函数

本文提出 PowerPruning 方法，通过选择在 MAC 操作中消耗更少功率的权重，以及考虑所选择权重的时序特征和所有激活转移，进一步选择导致小延迟的权重和激活，从而在不修改 MAC 单位的情况下减小了 MAC 单位敏化电路路径的最大延迟，实现了进一步的供应电压灵活缩放，使得该方法能够在仅有轻微精度损失的情况下，最多可将硬件上深度神经网络的功耗降低 78.3%。

Mar, 2023

深度神经网络的超低精度无乘训练

本文提出了一种自适应分层比例缩放的位编码量化（ALS-POTQ）方法和无乘积 MAC 的方法（MF-MAC），可以消除线性层中所有 FP32 乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性，从而获得比现有方法更高的能源效率和准确性。

Feb, 2023

卷积神经网络的加速器感知剪枝

在嵌入式环境中，卷积神经网络因其过多的权重存储和算术运算而未能得到广泛应用，为解决这一问题，本文提出了一种新的修剪方案，以反映加速器架构，通过此方案，性能得到了大幅提升，并成功应用于 AlexNet，VGG16，ResNet，MobileNet 等多种网络模型。

Apr, 2018

HadaNets: 神经网络的灵活量化策略

该研究论文介绍了一种名为 HadaNets 的新型神经网络模型，可以在不占用太多内存和训练时间的情况下有效地训练和推理深度神经网络，同时具有优秀的模型压缩性能。

May, 2019

RAPQ: 针对二次幂低比特后训练量化提高精度

提出一种名为 RAPQ 的 Power-of-Two 低位后训练量化方法，动态调整整个网络的二的幂次方比例因子，用 BN 信息进行重构，证明该方法可以实现近似于 SOTA 方法的高精度，代码已发布。

Apr, 2022

基于交叉栅极模拟内存加速器的 ADC 效率提升的修剪方法

通过识别三个关键属性，我们提出了一种适用于 ADC 特定效率低下问题的剪枝方法，实现 ADC 能量的降低并减少精度损失，从而提高深度学习效率。

Mar, 2024

基于物理驱动深度神经网络的实用单次相位恢复算法研究

提出了一种名为 PPRNet 的新物理驱动多尺度深度学习网络结构，能够从仅进行一次傅里叶幅度测量的数据中，准确、快速、并在实践光学系统中取得显著的重建效果。

Aug, 2022

一种 ReRAM 模拟神经训练加速器的能量、延迟、面积和准确性的多尺度共设计分析

该研究详细分析了使用模拟电阻式存储器（ReRAM）跨栅执行关键矩阵操作以提高加速器性能，并与使用数字 ReRAM 和 SRAM 操作的相关设计进行了比较。结果显示，与类似的数字版加速器块相比，该模拟加速器具有能效更高的优势，并且可以成为进一步架构研究的基础。

Jul, 2017