Nov, 2019
听写填空:用于语音识别的非自回归变压器
Non-Autoregressive Transformer Automatic Speech Recognition
TL;DR本研究提出了两种不自回归变换器结构以解决自动语音识别中的推理计算成本问题,在训练期间,输入的标记被特殊的掩码标记随机替换,网络需要考虑未被掩盖的上下文和语音输入以预测与那些掩码标记相对应的标记。结果表明,该模型能够支持不同的解码策略,特别是在 Aishell 上,该方法的性能超过了 Kaldi ASR 系统,与最先进的自回归变换器的性能相当,而且速度提高了 7 倍。