Jun, 2022
通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合
Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization
Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Swagath Venkataramani, George Saon...
TL;DR本研究探讨了量化技术对于循环神经网络传输器(RNN-T)推论过程的加速作用,通过量化训练(QAT)重新训练全模型,应用自定义的量化方案并使用大型 beam widths 进行假设搜索,实现了 RNN-T 的端到端量化,并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。