Jun, 2024

使用一种全能神经模型进行一遍式多形式和基础语音系统压缩与量化

TL;DR我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比,一个全能模型中压缩的多个 ASR 系统的字错误率(WER)相当,或更低至 1.01%绝对值(6.98%相对值)。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上,最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍,没有引起统计上显著的 WER 增加。