用于快速模型推理的神经网络压缩框架
本文介绍了一种名为 Condensa 的可编程模型压缩系统,可以通过程序化组合简单的操作符来构建更复杂和实际的压缩策略,并使用贝叶斯优化算法自动推断最佳稀疏度,实验结果表明,该系统可以在保持较高准确率的前提下,将存储占用和运行时间分别提高 188 倍和 2.59 倍。
Nov, 2019
本文介绍了一种新的深度神经网络压缩方法,在学习阶段增加额外的正则化项来减小全连接层的参数量,并结合 PQ 权重的量化以更节约存储空间。在 MNIST 和 CIFAR10 数据集上进行评估,与现有方法相比,压缩率显著提高。
Sep, 2015
使用强化学习方法的算法框架 Galen,可以自动压缩特定硬件目标的神经网络模型,不仅支持修剪、量化等压缩方法的联合搜索,还将目标硬件设备上的推理延迟作为优化目标,通过该方法能够将 CIFAR-10 上的 ResNet18 模型,在嵌入式 ARM 处理器上推理延迟仅为原始延迟的 20%,精度损失不大。
Dec, 2022
该论文介绍了一种名为 “深度压缩” 的技术,通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍,而同时不影响网络的准确性,该技术可以在嵌入式系统中使用,可以极大地提升模型的应用性能。
Oct, 2015
本文介绍了一种称为 Self-Compression 的方法,可以移除神经网络中的冗余参数和减少表示权重所需的位数,从而简化网络结构,提高训练和推断效率。作者通过实验证明,使用 Self-Compression 方法可以在只保留网络中 18% 的权重和仅需 3% 的位数的条件下,还能实现浮点数的准确性。
Jan, 2023
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
提出了一种简单而有效的方案 —— 单次整个网络压缩,以在移动设备上部署深度卷积神经网络,并通过对各种压缩卷积神经网络在智能手机上的性能进行测试,证明了所提方案的有效性,可获得显著的模型尺寸、运行时间和能量消耗的降低,同时只付出了小量精度损失。
Nov, 2015
为了解决网络规模增大的挑战,研究者通过网络剪枝开发了稀疏模型。然而,在通用计算设备上实现显著加速的同时保持模型准确性仍然是一个未解决的问题。在本文中,我们提出了一种新颖的移动推理加速框架 SparseByteNN,通过利用细粒度的内核稀疏性实现实时执行和高准确性。我们的框架包括两个部分:(a)一种细粒度的内核稀疏模式,其稀疏粒度介于结构化剪枝和非结构化剪枝之间。它为不同操作器设计了多种稀疏模式。结合我们提出的整体网络重新排列策略,该模式同时实现高压缩率和高精度。(b)与稀疏模式共同优化的推理引擎。常理认为,这种理论上的 FLOPs 减少并不能转化为真实世界的效率提升。我们旨在通过引入一族针对 ARM 和 WebAssembly 的高效稀疏内核来纠正这种误解。通过我们对稀疏原语的高效实现,我们展示了 MobileNet-v1 的稀疏版本在效率 - 准确性曲线上胜过性能强大且密集的基线模型。Qualcomm 855 的实验结果表明,对于 30%稀疏的 MobileNet-v1,SparseByteNN 相对于密集版本获得了 1.27 倍的加速,并相对于最先进的稀疏推理引擎 MNN 获得了 1.29 倍的加速,准确性略有下降,下降了 0.224%。SparseByteNN 的源代码将在此 https URL 上提供。
Oct, 2023