Apr, 2022

基于 Wav2vec2 的口齿不清语音识别中的发音人自适应

TL;DR本研究通过 fine-tuning wav2vec2 并使用 fMLLR 特征进行适应,对发音紊乱的语音识别进行了改进,实验结果表明在不同严重程度的口吃障碍情况下,该方法的识别效果相对稳定,WER 达到了 57.72%。