Dec, 2020

语音识别统一流式和非流式两遍端到端模型

TL;DR本文提出了一种新颖的两步方法,用于将流式和非流式端到端(E2E)语音识别统一到单个模型中,该模型采用混合 CTC /attention 架构,在编码器的 conformer 层进行修改,并且在推理时,CTC 解码器以流式方式生成 n 个最佳假设,然后通过注意力解码器进行重评分以得到最终结果,并且在 AISHELL-1 测试集上,基于提出的方法的统一模型相对于标准的非流式 transformer,实现了 5.60%的相对字符错误率(CER)降低,在流式 ASR 系统中实现了 640ms 的延迟。