Nov, 2022

双通道级联编码 ASR 模型中的 E2E 分割

TL;DR我们探讨了将神经分割器与两次级联编码器 ASR 统一为单个模型。我们提出了一种设计,其中神经分割器与因果一次传递解码器集成在一起,以实时发出分段结束(EOS)信号。我们尝试了不同的方式来最终确定第二遍,发现一种新颖的虚拟帧注入策略可以同时实现高质量的第二遍结果和低延迟。在一个实际的长形字幕任务(YouTube)中,我们比基线 VAD 基于分割器使用相同的级联编码器获得了 2.4% 的相对 WER 和 140 毫秒的 EOS 延迟增益。