加速边缘设备上的二次幂量化
本文介绍了一种基于深度强化学习的硬件感知自适应量化方法,将硬件加速器的反馈置于设计循环中以自动确定量化策略,该方法可以为不同的神经网络架构和硬件架构专门量身定制量化策略。与传统方法相比,该方法可以将延迟降低1.4-1.95倍,能量消耗降低1.9倍,并提供了不同量化策略的含义,为神经网络架构设计和硬件架构设计提供了新的思路。
Nov, 2018
本文提出了一种名为WAGEUBN的统一完整量化框架,可将神经网络的数据路径(包括所有数据类型W,A,G,E,U和BN)中所有数据转换为低位整数以实现全面量化和在线训练,并在ImageNet数据集上获得了可比较的精度,展示了在大规模DNNs中8位INT级别的完整量化的功能性。
Sep, 2019
本文提出了一种基于深度强化学习的硬件感知自动量化框架 (HAQ),旨在为不同的神经网络体系结构和硬件体系结构确定最佳的量化策略,以提高计算效率并在保持准确性的前提下减少延迟和能耗。 在硬件仿真器的帮助下,该框架的有效性已得到证明。
Aug, 2020
该论文研究了基于FPGA的深度神经网络模型压缩方法——不同行采用不同的量化方案以充分利用FPGA中LUT和DSP的资源,提出了适用于高斯分布和均匀分布的两种量化方案,并提出了混合方案以保持或提高精度。
Dec, 2020
通过使用二次幂量化和基于位移乘累加运算代替传统的乘累加运算,以及基于对数量化的新型剪枝方法,本文在基于 Zynq UltraScale + MPSoC ZCU104 SoC FPGA 的硬件神经网络加速器中实现了 Power-of-Two( PoT ) 权重,实现了至少 $1.4x$ 的能效提升。
Sep, 2022
该论文提出了一种基于量化的后训练量化流程,无需重新训练即可加速深度神经网络的推理,并得到了在ImageNet上6位的Top-1准确率增加2.2%的结果。
Oct, 2022
本文提出了一种自适应分层比例缩放的位编码量化(ALS-POTQ)方法和无乘积MAC的方法(MF-MAC),可以消除线性层中所有FP32乘法和重量偏差校正和参数化比率裁剪技术来提高稳定性和提高准确性,从而获得比现有方法更高的能源效率和准确性。
Feb, 2023
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展Timeloop工具,提出了一种高效的多目标优化算法,实证了该方法在两种CNN和两种加速器上的有效性,并证明了相对于未经精心优化的CNN实现,可以实现高达37%的能量节省,而无需降低精度。
Apr, 2024
边缘计算和微控制器 (MCUs) 上的量化和对抗示例在深度边缘上的有效性进行了实证评估。量化增加了决策边界的点距离,并导致某些攻击估计的梯度爆炸或消失,同时量化能够增强或减弱噪声,导致梯度失调。尽管输入预处理防御在小扰动上效果显著,但在扰动增加时表现不佳,而基于训练的防御方法可以增加决策边界的平均点距,并且在量化后仍然有效,但我们认为基于训练的防御仍需解决量化偏移和梯度失调的问题以对抗对 QNNs 的敌对示例可迁移性。
Apr, 2024
通过自定义的模型压缩算法实现量化,从而加速在低功耗硬件上进行昂贵的深度神经网络计算的开源工具 Torch2Chip。
May, 2024