该论文介绍了一种名为 “深度压缩” 的技术,通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍,而同时不影响网络的准确性,该技术可以在嵌入式系统中使用,可以极大地提升模型的应用性能。
Oct, 2015
本文探讨信息理论中的向量量化方法,用于压缩卷积神经网络中的参数,结果表明针对最消耗存储的稠密连接层使用向量量化方法比现有的矩阵分解方法更加高效,仅使用最先进的 CNN 模型在 ImageNet 挑战赛的 1000 分类任务中,即使损失 1% 的分类准确率,也能获得 16-24 倍的网络压缩优化。
Dec, 2014
本文提出了一种新颖的一次性剪枝量化(OPQ)方法,使用预先训练的模型参数解决剪枝和量化问题,并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验,结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。
May, 2022
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
本文提出在训练过程中明确考虑模型压缩,通过引入低秩正则化项使每层参数矩阵的秩尽量小,实现更有效的模型压缩。实验证明,这一方法比现有的压缩技术更加高效。
Nov, 2017
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
使用强化学习方法的算法框架 Galen,可以自动压缩特定硬件目标的神经网络模型,不仅支持修剪、量化等压缩方法的联合搜索,还将目标硬件设备上的推理延迟作为优化目标,通过该方法能够将 CIFAR-10 上的 ResNet18 模型,在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%,精度损失不大。
Dec, 2022
本研究介绍了一种轻量级的压缩技术,用于在边缘设备上进行代码的分割,仅针对深度神经网络中的激活,而且不需要任何重新训练。当应用于流行的对象检测和分类深度神经网络时,能够将 32 位浮点激活压缩到 0.6 至 0.8 位,同时保持精度损失不到 1%。
May, 2021
本文提出了一种针对深度模型量化的优化框架和量化算法,首次理论分析单个图层的参数量化误差与模型精度之间的关系,达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。
Dec, 2017
本文提出了两种新的模型压缩方法:量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明,在资源受限的环境中,量化浅层神经网络可以达到与全精度模型相似的准确性水平,同时提供数量级压缩和推断加速。
Feb, 2018