Oct, 2022

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

TL;DR本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务,实验结果表明,使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中,能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。