Jun, 2022

通过端到端 4 位量化加速递归神经网络转录器的推断和语言模型融合

TL;DR本研究探讨了量化技术对于循环神经网络传输器(RNN-T)推论过程的加速作用,通过量化训练(QAT)重新训练全模型,应用自定义的量化方案并使用大型 beam widths 进行假设搜索,实现了 RNN-T 的端到端量化,并取得了较好的性能以及与浮点精度相比 7.6 倍的压缩比。