使用低比特量化来实现高效语音表示学习

Dec, 2022

使用低比特量化来实现高效语音表示学习

Efficient Speech Representation Learning with Low-Bit Quantization

Ching-Feng Yeh, Wei-Ning Hsu, Paden Tomasello, Abdelrahman Mohamed

TL;DR我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。

Abstract

With the development of hardware for machine learning, newer models often come at the cost of both increased sizes and computational complexity. In effort to improve the efficiency for these models, we apply and investigate recent quantization techniques on →

quantization techniques speech representation learning models model compression efficient runtime word error rate

发现论文，激发创造

深度声学模型的高效表示与执行

本文提出了一种简单而高效的量化方案，将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值，从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作，从而显着降低了推理成本，并通过提出的 “量化感知” 训练过程进行网络训练，发现可以恢复大部分量化引入的精度损失，并验证了该技术在一个开放式大词汇语音识别任务上的应用。

Jul, 2016

Whisper-KDQ：基于知识蒸馏和量化引导的轻量化口语识别技术

本文介绍一种新的知识蒸馏和量化的方法，用于压缩预训练的语音识别模型 Whisper，保持其性能的同时减少模型大小和计算开销，实验结果表明该方法可以将原始模型压缩至 5.18X/10.48X，同时以字符误差率的 11.3％和 14.0％的相对减少量维持性能。

May, 2023

加强量化的端到端 ASR 模型通过个性化

使用 4-bit 正态浮点数量化和低秩自适应方法相结合的个性化量化模型策略，大幅降低了模型大小并显著减少了词错误率。

Sep, 2023

8 位神经网络加速器的小于 8 位量化感知训练，用于设备上的语音识别

本文提出了一种 8 位神经网络加速器的新型子 8 位量化感知训练（S8BQAT）方案，利用 Lloyd-Max 压缩理论的灵感，通过适当的实用化来降低计算开销，并应用于递归神经网络传输者 (RNN-T) 结构的语音识别任务中，进一步优化模型参数大小，相对减少误差率 4%-16%，提高计算速度 5%。

Jun, 2022

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

Q-BERT: 基于 Hessian 的 BERT 超低精度量化

本文通过使用 Hessian 信息对 BERT 模型进行精细调整的广泛分析，提出了一种超低精度量化 BERT 模型的新方法，并对 SST-2、MNLI、CoNLL-03 和 SQuAD 等多项下游任务进行了广泛的测试，证明我们的新方法实现了与基线相当的性能。

Sep, 2019

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

KDLSQ-BERT: 一种结合知识蒸馏和学习步长量化的量化 BERT 模型

提出了一种基于 KDLSQ-BERT 的新型量化方法，将知识蒸馏与学习步长量化结合，可在保持精度的同时减小模型大小并提高推理性能，实现了 14.9 倍的压缩率，并且在各种比特（如 2 比特至 8 比特）的量化情况下表现出色。

Jan, 2021

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022

自我蒸馏量化：在基于 Transformer 的语言模型中实现高压缩率

通过后训练量化和量化意识训练来研究 Transformer 语言模型的概括化效果。提出了一种称为自身蒸馏量化（SDQ）的方法，该方法最小化积累的量化误差，并优于基线。将 SDQ 应用于多语言模型 XLM-R-Base 和 InfoXLM-Base，并证明两个模型可以从 32 位浮点权重减少到 8 位整数权重，同时在 XGLUE 基准上保持高水平的性能。我们的结果还突出了量化多语言模型的挑战，这些模型必须概括他们没有针对性微调的语言。

Jul, 2023