Jun, 2023

时间戳嵌入匹配声学到词汇 CTC 自动语音识别

TL;DR本文提出了一种新颖的嵌入匹配语音识别器,它直接产生了单词的起始时间和持续时间,并可以在测试时输出单词分割和单词混淆网络,同时相对于非时间戳系统,Word timestamps 可以使得系统获得类似于混合 DNN-HMM 系统的单词分割准确度和不到 3ms 的较小差异,我们提供了多重假设嵌入匹配 ASR 的更严格的分析。