We quantify a source of ineffectual computations when processing the
multiplications of the convolutional layers in deep neural networks (DNNs) and
propose Pragmatic (PRA), an architecture that exploits it improv
本文提出 PowerPruning 方法,通过选择在 MAC 操作中消耗更少功率的权重,以及考虑所选择权重的时序特征和所有激活转移,进一步选择导致小延迟的权重和激活,从而在不修改 MAC 单位的情况下减小了 MAC 单位敏化电路路径的最大延迟,实现了进一步的供应电压灵活缩放,使得该方法能够在仅有轻微精度损失的情况下,最多可将硬件上深度神经网络的功耗降低 78.3%。