Apr, 2022

E2E Segmenter: 针对长形式 ASR 的联合分词和解码

TL;DR使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD,我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。