神经网络压缩:二值化和少量全精度权值
本文提出了一种新颖的一次性剪枝量化(OPQ)方法,使用预先训练的模型参数解决剪枝和量化问题,并通过统一的通道量化方法提高了训练效率和压缩比。对于 AlexNet/MobileNet-V1/ResNet-50 等模型在 ImageNet 数据集上展开全面实验,结果表明该方法相对于目前最先进的技术可以获得更高的压缩比和更好的训练效率。
May, 2022
该论文介绍了一种名为 “深度压缩” 的技术,通过三阶段的网络压缩流程 —— 剪枝、量化和霍夫曼编码 —— 可以将神经网络模型的存储资源需求减小 35 到 49 倍,而同时不影响网络的准确性,该技术可以在嵌入式系统中使用,可以极大地提升模型的应用性能。
Oct, 2015
通过 ADMM(Alternating Direction Methods of Multipliers)方法,本文提出了一种新的基于 DNN 模型的结构压缩框架,实现了在不损失精度的情况下对 Lenet-5,AlexNet 和 ResNet-50 模型分别达到 246x,36x 和 8x 的权重剪枝,并且在 AlexNet(ImageNet)中 61x 的权重剪枝只导致了细微精度下降,还引导出了重要的基于 ResNet 和 MobileNet 模型的权重剪枝结果以及全层次二进制化的 LeNet-5 和 ResNet 等。
Mar, 2019
该论文提出了一种新的更一般的二进制域,扩展了标准二进制域,并且更适合剪枝技术,在保证性能的同时提高了压缩率,这种方法与其他修剪策略相结合可以生成高效稀疏网络,并减少内存使用和运行时间延迟。
Jun, 2023
本文提出了一种迭代的量化技术,将权重量化和完整精度权重的重新训练结合起来,以达到高压缩比和减少量化损失,同时证明该方法能够有效地利用剪枝等其他模型压缩技术,实现在 PTB 数据集上使用 1-bit 量化重量的 LSTM 模型,减少了硬件资源需求但不会降低准确性。
May, 2018
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
通过使用带有 K 个条目的码簿进行实值权重的量化,我们提出了一种新方法,该方法基于模型压缩作为约束优化框架,交替进行连续权重的网络学习和权重量化(或二值化 / 三值化)的步骤,以便在量化网络的损失上收敛到局部最优解。
Jul, 2017
我们提出了一种可微的联合剪枝和量化 (DJPQ) 方案,将神经网络压缩视为联合基于梯度的优化问题,在模型剪枝和量化之间自动地进行权衡,以实现硬件效率,相比之下,我们的方法使用户能够在单个培训过程中找到两者之间的最佳权衡。
Jul, 2020
本文研究了网络二值化技术在大型语言模型(LLMs)压缩中的应用。通过提出一种新的方法,即部分二值化 LLMs(PB-LLM),我们能够在保持低位量化的同时保持 LLMs 的语言推理能力。我们通过后训练量化(PTQ)和量化感知训练(QAT)的分析,提出了恢复量化 LLMs 容量的方法。这些研究和方法对于改善低位量化 LLMs 的性能以及网络二值化在 LLMs 领域的发展具有重要的意义。
Sep, 2023