基于蒸馏和量化的模型压缩
本文提出了一种针对深度模型量化的优化框架和量化算法,首次理论分析单个图层的参数量化误差与模型精度之间的关系,达到了比以前的优化方法更高的压缩率和相同模型精度下更高的压缩率。
Dec, 2017
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
本文详细研究量化模型的行为特征,通过考虑 4 个跨越图像到文本的数据集,8 种深度学习网络架构,以及包含合成和自然分布转移的 42 个转移集,揭示出在看不见的数据上的行为特征,同时指出量化训练可以产生更稳定的模型,$Margin$ 是 quantized 模型中不确定性度量的更好指标.
Apr, 2022
本文提出了一种基于梯度下降优化的深度神经网络压缩的精细化量化方法,通过在不同结构、层次上采用不同的精度,达到更好的压缩比和准确率的平衡。实验结果表明,与传统量化方法相比,该方法在相同压缩率下表现更优。
Oct, 2018
本文研究了利用共享学习通过跨多语言模型实现低资源语种机器翻译的方法,探讨了知识蒸馏和后训练量化等压缩模型的技术,并发现后训练量化在所有语种中表现更加稳定。
Oct, 2022
通过联合采用修剪和量化,利用强化学习探索与低能耗相关的设计空间及其精度损失,我们提出了一种自动压缩深度神经网络的硬件感知框架,能够在嵌入式深度神经网络加速器上实现能耗最小化。实验结果表明,相比现有方法,我们的框架平均能耗降低 39%,平均精度损失为 1.7%。
Dec, 2023
本文提出了两种新的网络量化方法,即高位量化的单层网络量化(SLQ)和极低位量化(三元)的多层网络量化(MLQ),两种方法均在有效利用深度信息方面表现出色。
Mar, 2018
本文针对预训练模型在资源受限情况下,因占用大量内存和高延迟而面临的挑战,提出联合蒸馏和量化的方法,成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比,而性能相对于完整精度版本并没有明显下降,并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析,此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。
Mar, 2022