加强量化的端到端 ASR 模型通过个性化

Sep, 2023

加强量化的端到端 ASR 模型通过个性化

Enhancing Quantised End-to-End ASR Models via Personalisation

Qiuming Zhao, Guangzhi Sun, Chao Zhang, Mingxing Xu, Thomas Fang Zheng

TL;DR使用 4-bit 正态浮点数量化和低秩自适应方法相结合的个性化量化模型策略，大幅降低了模型大小并显著减少了词错误率。

Abstract

Recent end-to-end automatic speech recognition (ASR) models have become increasingly larger, making them particularly challenging to be deployed on resource-constrained devices. model quantisation is an effective

automatic speech recognition model quantisation personalisation speaker adaptive training model compression

发现论文，激发创造

适用于每个用户和预算的模型：无标签和个性化的混合精度量化

最近的自动语音识别（ASR）中取得的进展产生了大型 AI 模型，这些模型在移动设备上部署变得不切实际。模型量化可以产生压缩的通用模型，但这些模型可能只能在特定领域中部署。我们表明在量化过程中可以个性化地对 ASR 模型进行个性化调整，仅依赖于目标领域的少量未标记样本。为此，我们提出了 myQASR，一种混合精度量化方法，它可以在不需要微调的情况下为不同用户生成量化方案，以适应任何内存需求。myQASR 通过分析全精度激活值来自动评估网络层的量化灵敏度，我们能够为任何预定的内存预算生成个性化的混合精度量化方案。大规模 ASR 模型的结果表明 myQASR 如何提高特定性别、语言和说话者的性能。

Jul, 2023

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

L4Q：大型语言模型的参数高效量化感知训练：基于 LoRA-wise LSQ

L4Q 是一种参数高效的量化感知训练算法，利用 LLMs 中学到的低秩适应性量化步长，实现对高精度模型的同时量化和微调，达到亚 4 位精度并保持与应用 PEFT 在量化模型上相当的训练时间。

Feb, 2024

使用低比特量化来实现高效语音表示学习

我们对语音表示学习模型应用最近的量化技术，并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比，在 ASR 任务上，2 比特配置的存储更小，字错率更低，估计的运行时间更高效。

Dec, 2022

使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化

我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法，使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统，而无需单独训练和存储个别目标系统。实验证明，与等复杂度的单独训练系统相比，一个全能模型中压缩的多个 ASR 系统的字错误率（WER）相当，或更低至 1.01％绝对值（6.98％相对值）。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上，最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍，没有引起统计上显著的 WER 增加。

Jun, 2024

RAND：针对量化 Seq2seq 模型的鲁棒性感知范数衰减

本文提出了一种低复杂度的量化感知训练方法，以将 4 位序列到序列模型应用于语音识别数据集，并在模型精度方面优于常见的学习比例尺和裁剪方法。

May, 2023

语音识别中的深度学习模型：GPU 能耗测量，噪声影响和边缘部署模型量化

本研究通过分析采用 FP32、FP16 和 INT8 量化技术在清洁和噪声数据集上的 ASR 模型的字错率和转录速度，揭示了准确性、速度、量化、能效与内存需求之间的重要权衡关系。结果发现，将精度从 fp32 改变为 fp16 可以使不同模型的音频转录能耗减少一半，同时性能下降较小。模型大小和参数数量的增加既不能保证对噪声具有更好的鲁棒性，也不能预测在给定的转录负载下的能耗。这些发现为在能耗和内存限制的环境下优化 ASR 系统提供了新的见解，对于开发高效的设备上 ASR 解决方案至关重要。

May, 2024

8 位神经网络加速器的小于 8 位量化感知训练，用于设备上的语音识别

本文提出了一种 8 位神经网络加速器的新型子 8 位量化感知训练（S8BQAT）方案，利用 Lloyd-Max 压缩理论的灵感，通过适当的实用化来降低计算开销，并应用于递归神经网络传输者 (RNN-T) 结构的语音识别任务中，进一步优化模型参数大小，相对减少误差率 4%-16%，提高计算速度 5%。

Jun, 2022

通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

本研究探讨了量化技术对于循环神经网络传输器（RNN-T）推论过程的加速作用，通过量化训练（QAT）重新训练全模型，应用自定义的量化方案并使用大型 beam widths 进行假设搜索，实现了 RNN-T 的端到端量化，并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。

Jun, 2022

LLM 的低秩量化感知训练

大型语言模型经常遇到计算和存储需求增加的挑战，为此我们提出了一种名为 LR-QAT 的轻量级、存储高效的量化感知训练算法，通过使用低秩辅助权重、固定点或双包整数的强制转换运算符以及检查点等组件，我们可以在不牺牲预测性能的情况下节省内存，该方法可应用于多种量化设置并与多种 PTQ 技术无缝结合，有效提升模型性能并在内存使用上达到与全模型 QAT 相当的水平。

Jun, 2024