Oct, 2022

模块化混合自回归传感器

TL;DR本文提出了一种模块化混合自回归转录器(MHAT),该转录器具有结构上分离的标签和空白解码器,涉及共享的声学编码器,因此在语音识别中具有方便的文本自适应性和内部语言模型。在大量实验中该方法的内部语言模型具有高效性,因此在 Google 大规模生产数据中,使用 MHAT 相比 400K 小时的 HAT 训练,进行文本自适应后,无需语言融合可获得高达 12.4%的相对字错率减少和 21.5%的相对字错率减少与语言融合。