本文介绍了深度神经网络中两种压缩技术 —— 剪枝和量化,比较了它们的优劣,并且提出了相关的压缩网络的实用指南。
Jan, 2021
使用强化学习方法的算法框架 Galen,可以自动压缩特定硬件目标的神经网络模型,不仅支持修剪、量化等压缩方法的联合搜索,还将目标硬件设备上的推理延迟作为优化目标,通过该方法能够将 CIFAR-10 上的 ResNet18 模型,在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%,精度损失不大。
Dec, 2022
本文提出了一种新颖的一次性剪枝量化(OPQ)方法,使用预先训练的模型参数解决剪枝和量化问题,并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验,结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。
May, 2022
该论文介绍了一种名为 “深度压缩” 的技术,通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍,而同时不影响网络的准确性,该技术可以在嵌入式系统中使用,可以极大地提升模型的应用性能。
Oct, 2015
本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪,发现量化和知识蒸馏提供了比修剪更大的好处,同时多种方法的组合具有协同减小模型大小的效果。
Aug, 2022
该研究提出了一种减小深度神经网络 (DNNs) 体积的方法 —— 使用低位表达来量化预训练模型的权重和激活数据,并提出了基于剪枝的新方法 PfQ 来解决深度中间层权重动态范围宽导致的量化误差和准确度下降的问题。
Nov, 2020
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
现代深度神经网络中,网络压缩已成为一项重要研究方向。本文通过综述现有文献,详细介绍了深度神经网络剪枝的研究方法、剪枝的不同层次以及未来发展方向,并提出了有价值的推荐建议。
Aug, 2023
本文提出了 PQ Index (PQI) 作为衡量深度神经网络可压缩性的量化指标,并基于此开发了一种基于稀疏性信息的自适应裁剪算法 (SAP),该算法在压缩效率和稳健性方面优于遗传算法等迭代型裁剪算法。
Feb, 2023
我们提出了一种可微的联合剪枝和量化 (DJPQ) 方案,将神经网络压缩视为联合基于梯度的优化问题,在模型剪枝和量化之间自动地进行权衡,以实现硬件效率,相比之下,我们的方法使用户能够在单个培训过程中找到两者之间的最佳权衡。
Jul, 2020