使用低比特量化来实现高效语音表示学习
本文提出了一种简单而高效的量化方案,将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值,从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作,从而显着降低了推理成本,并通过提出的 “量化感知” 训练过程进行网络训练,发现可以恢复大部分量化引入的精度损失,并验证了该技术在一个开放式大词汇语音识别任务上的应用。
Jul, 2016
本文介绍一种新的知识蒸馏和量化的方法,用于压缩预训练的语音识别模型 Whisper,保持其性能的同时减少模型大小和计算开销,实验结果表明该方法可以将原始模型压缩至 5.18X/10.48X,同时以字符误差率的 11.3%和 14.0%的相对减少量维持性能。
May, 2023
本文提出了一种 8 位神经网络加速器的新型子 8 位量化感知训练(S8BQAT)方案,利用 Lloyd-Max 压缩理论的灵感,通过适当的实用化来降低计算开销,并应用于递归神经网络传输者 (RNN-T) 结构的语音识别任务中,进一步优化模型参数大小,相对减少误差率 4%-16%,提高计算速度 5%。
Jun, 2022
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到 8 位定点精度,将全精度模型的参数数量减小并将模型进一步压缩 4 倍,同时维持模型高精度。
Nov, 2019
本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析,提出了一种超低精度量化 BERT 模型的新方法,并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试 ,证明我们的新方法实现了与基线相当的性能。
Sep, 2019
本文提出了一种针对 BERT 模型的自动混合精度量化框架,可以在子组水平同时进行量化和修剪,实现了压缩模型和保持同样性能的目标,并结合 DistilBERT 等方法获得了极轻量级模型。
Dec, 2021
提出了一种基于 KDLSQ-BERT 的新型量化方法,将知识蒸馏与学习步长量化结合,可在保持精度的同时减小模型大小并提高推理性能,实现了 14.9 倍的压缩率,并且在各种比特(如 2 比特至 8 比特)的量化情况下表现出色。
Jan, 2021
本文针对预训练模型在资源受限情况下,因占用大量内存和高延迟而面临的挑战,提出联合蒸馏和量化的方法,成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比,而性能相对于完整精度版本并没有明显下降,并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析,此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。
Mar, 2022
通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化(SDQ)的方法,该方法最小化积累的量化误差,并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base,并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重,同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战,这些模型必须概括他们没有针对性微调的语言。
Jul, 2023